Можно ли точно настроить гораздо меньшую языковую модель, такую как Roberta, скажем, для набора данных обслуживания клиентов, и получить такие же хорошие результаты, как можно было бы получить, запрашивая GPT-4 с частями набора данных?
Может ли точно настроенная модель Роберты научиться следовать инструкциям в разговорной манере, по крайней мере, для такой небольшой области, как эта?
Есть ли какой-либо документ или статья, которая исследует этот вопрос эмпирически, которую я могу проверить?
Я нашел средний кусок, который многое объясняет в этом здесь.
Цитируя вывод, сделанный выше,
В домене низких данных подсказки демонстрируют более высокую производительность, чем соответствующий метод тонкой настройки. Превзойти показатели SOTA в тонкая настройка, использование больших замороженных языковых моделей в сочетании с настройкой мягкой подсказки, кажется, путь вперед.
Похоже, что LLM может превзойти точную настройку модели меньшего размера для задач, специфичных для предметной области, если данные для обучения малы, и наоборот, если в противном случае.
Кроме того, по моему личному опыту работы с
Другой подход к точной настройке небольших моделей на предметных данных может заключаться в использовании более тщательно и тщательно разработанных подсказок с моделями среднего размера. Это может быть жизнеспособной альтернативой использованию API-интерфейсов, предоставляемых владельцами очень крупных проприетарных моделей.