Tf-idf и ранее невидимые условия

TF-IDF (частота термина - обратная частота документа) - это основа поиска информации. Однако это неправильная модель, и она, кажется, ломается, когда в корпус вводятся новые термины. Как люди справляются с этим, когда запросы или новые документы содержат новые термины, особенно если они встречаются часто. При традиционном сопоставлении косинусов это не повлияет на общее сопоставление.

Соответствующий технический разговор на Facebook с Питером Норвигом, обсуждающим это. В части о сегментации (около 5:30) он фактически замалчивает эту проблему, говоря: «И вам нужно сделать небольшой трюк, если вы упускаете слово - если это слово вы никогда раньше не видели». . Это намекает на то, что это известная проблема с нетривиальным решением, потому что он не говорит нам, в чем состоит фокус.

— 18.10.2012 14:04

algorithm statistics nlp tf-idf

21.10.2008 22:53

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

2 892

Ответы 2

Эээ, нет, не ломается.

Скажем, у меня есть два документа: А "ласка коза" и Б "сырный суслик". Если бы мы на самом деле представили их как векторы, они могли бы выглядеть примерно так:

A [1,1,0,0]
B [0,0,1,1]

и если мы разместили эти векторы в индексном файле, да, у нас возникнет проблема, когда придет время добавить новый термин. Но фокус в том, что этого вектора никогда не существует. Ключ - инвертированный индекс.

Что касается новых терминов, не влияющих на совпадение косинусов, это может быть правдой в зависимости от того, что вы имеете в виду. Если я ищу в своем корпусе (A, B) запрос «мартышка кунг-фу», то в корпусе нет ни мартышек, ни кунг-фу. Таким образом, вектор, представляющий мой запрос, будет ортогонален всем документам в коллекции и получит плохую оценку косинусного сходства. Но, учитывая, что ни один из терминов не совпадает, это кажется вполне разумным.

01.11.2008 01:11

Когда вы говорите о «разбиении», я думаю, вы имеете в виду, что новые термины не влияют на меру подобия, потому что они не имеют никакого представления в векторном пространстве, определенном исходным словарем.

Один из подходов к решению этой проблемы сглаживания мог бы заключаться в рассмотрении возможности исправления словарного запаса до меньшего словарного запаса и обработки всех слов, более редких, чем определенный порог, как принадлежащих особому слову _UNKNOWN_.

Однако я не думаю, что ваше определение «поломки» очень четкое; не могли бы вы пояснить, что вы здесь имеете в виду? Если бы вы могли это прояснить, возможно, мы могли бы обсудить способы решения этих проблем.

01.01.2009 01:15

Другие вопросы по теме

Какой самый быстрый способ получить среднее значение набора чисел из командной строки?

Как получить статистику, существующую в столбце, если таковая имеется?

Алгоритм заказа рекламных кампаний на основе итоговых продаж

Эквивалент времени на проверку памяти

Oracle V $ OSSTAT

Инструменты для разреженной регрессии наименьших квадратов

Лучшая практика: как отслеживать исходящие ссылки?

Почему Wemf и Google Analytics говорят мне такие разные вещи?

Как программно рассчитать шансы в покере?

Скрытое распределение Дирихле, подводные камни, советы и программы

Tf-idf и ранее невидимые условия

Ответы 2

Другие вопросы по теме

Похожие вопросы