Учитывая, что системы встраивания, такие как Sense2Vec, включают лингвистические функции, такие как части речи, почему эти вложения используются реже?
Среди популярных сегодня работ по НЛП Word2Vec и GloVe являются наиболее часто используемыми системами встраивания слов. Несмотря на то, что они содержат только словесную информацию и не имеют лингвистических особенностей слов.
Например, в задачах анализа тональности, классификации текста или машинного перевода логично предположить, что если входные данные также включают лингвистические особенности, производительность может быть повышена. Особенно при устранении неоднозначности таких слов, как «утка» для глагола и «утка» для существительного.
Является ли это мышление ошибочным? Или есть какая-то другая практическая причина, по которой эти вложения не используются более широко.
Это очень субъективный вопрос. Одной из причин является сам пост-тегер. Post-tagger — это вероятностная модель, которая может добавить к общей ошибке/путанице.
Например. скажем, у вас есть плотные представления для duck-NP
и duck-VB
, но во время выполнения / вывода ваш тег pos-tagger помечает «утку» как что-то еще, тогда вы даже не найдете его. Более того, это также эффективно уменьшает общее количество раз, когда ваша система видит слово duck
, поэтому можно утверждать, что сгенерированные представления будут слабыми.
В довершение всего, основная проблема, которую решает sense2vec
, — это контекстуализация представлений слов, которая была решена с помощью контекстных представлений, таких как BERT
и ElMo
и т. д., без создания каких-либо из вышеперечисленных проблем.