TF-IDF (частота термина - обратная частота документа) - это основа поиска информации. Однако это неправильная модель, и она, кажется, ломается, когда в корпус вводятся новые термины. Как люди справляются с этим, когда запросы или новые документы содержат новые термины, особенно если они встречаются часто. При традиционном сопоставлении косинусов это не повлияет на общее сопоставление.





Эээ, нет, не ломается.
Скажем, у меня есть два документа: А "ласка коза" и Б "сырный суслик". Если бы мы на самом деле представили их как векторы, они могли бы выглядеть примерно так:
A [1,1,0,0]
B [0,0,1,1]
и если мы разместили эти векторы в индексном файле, да, у нас возникнет проблема, когда придет время добавить новый термин. Но фокус в том, что этого вектора никогда не существует. Ключ - инвертированный индекс.
Что касается новых терминов, не влияющих на совпадение косинусов, это может быть правдой в зависимости от того, что вы имеете в виду. Если я ищу в своем корпусе (A, B) запрос «мартышка кунг-фу», то в корпусе нет ни мартышек, ни кунг-фу. Таким образом, вектор, представляющий мой запрос, будет ортогонален всем документам в коллекции и получит плохую оценку косинусного сходства. Но, учитывая, что ни один из терминов не совпадает, это кажется вполне разумным.
Когда вы говорите о «разбиении», я думаю, вы имеете в виду, что новые термины не влияют на меру подобия, потому что они не имеют никакого представления в векторном пространстве, определенном исходным словарем.
Один из подходов к решению этой проблемы сглаживания мог бы заключаться в рассмотрении возможности исправления словарного запаса до меньшего словарного запаса и обработки всех слов, более редких, чем определенный порог, как принадлежащих особому слову _UNKNOWN_.
Однако я не думаю, что ваше определение «поломки» очень четкое; не могли бы вы пояснить, что вы здесь имеете в виду? Если бы вы могли это прояснить, возможно, мы могли бы обсудить способы решения этих проблем.