Почему не используются вложения слов с лингвистическими функциями (например, Sense2Vec)?

Учитывая, что системы встраивания, такие как Sense2Vec, включают лингвистические функции, такие как части речи, почему эти вложения используются реже?

Среди популярных сегодня работ по НЛП Word2Vec и GloVe являются наиболее часто используемыми системами встраивания слов. Несмотря на то, что они содержат только словесную информацию и не имеют лингвистических особенностей слов.

Например, в задачах анализа тональности, классификации текста или машинного перевода логично предположить, что если входные данные также включают лингвистические особенности, производительность может быть повышена. Особенно при устранении неоднозначности таких слов, как «утка» для глагола и «утка» для существительного.

Является ли это мышление ошибочным? Или есть какая-то другая практическая причина, по которой эти вложения не используются более широко.

Тонкая настройка GPT-3 с помощью Anaconda
Тонкая настройка GPT-3 с помощью Anaconda
Зарегистрируйте аккаунт Open ai, а затем получите ключ API ниже.
2
0
222
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Это очень субъективный вопрос. Одной из причин является сам пост-тегер. Post-tagger — это вероятностная модель, которая может добавить к общей ошибке/путанице.

Например. скажем, у вас есть плотные представления для duck-NP и duck-VB, но во время выполнения / вывода ваш тег pos-tagger помечает «утку» как что-то еще, тогда вы даже не найдете его. Более того, это также эффективно уменьшает общее количество раз, когда ваша система видит слово duck, поэтому можно утверждать, что сгенерированные представления будут слабыми.

В довершение всего, основная проблема, которую решает sense2vec, — это контекстуализация представлений слов, которая была решена с помощью контекстных представлений, таких как BERT и ElMo и т. д., без создания каких-либо из вышеперечисленных проблем.

Другие вопросы по теме