Предотвратить выделение собственных существительных в PostgreSQL?

В своем энтузиазме по поводу STEMM-токены в лексемы движок полнотекстового поиска PostgreSQL также сокращает имена собственные. Например:

essais=> select to_tsquery('english', 'bortzmeyer');
to_tsquery 
------------
'bortzmey'

essais=> select to_tsquery('english', 'balling');
to_tsquery 
------------
'ball'
(1 row)

По крайней мере, для первого, я уверен, что его нет в английском словаре! Как лучше избежать этого ложного стемминга?

Я предполагаю, что это делается на предыдущем шаге, «объединении документов в токены», поскольку это пахнет использованием алгоритма, а не словаря.

— 10.12.2008 00:02

Вы можете использовать «простой» словарь, чтобы избежать стемминга. select to_tsquery('simple', 'bortzmeyer'); и select to_tsquery('simple', 'balling');.

— 24.04.2017 19:00

postgresql

09.12.2008 23:43

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

1 607

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Смысл алгоритмов выделения корней - это нет, чтобы сократить каждое слово до его правильной основы; цель состоит в том, чтобы свести одинаковые слова к общей основной форме. Как правило, цель состоит не в том, чтобы получить слово, которое можно было бы представить пользователю: даже если и «мяч», и «мяч» будут давать «kjebnkkekaa», алгоритм верен, потому что он по-прежнему рассматривает «мяч» и «мяч» как обычно относящиеся к делу. тоже самое.

Также имейте в виду, что ни один алгоритм стемминга не является абсолютно идеальным, для получения дополнительной информации искать алгоритм Портера Stemming

10.12.2008 00:12

Это из-за стеммера Snowball, как объяснил здесь. В основном вы захотите отключить стеммер Snowball и использовать только iSpell или один из других словарей, но это также снизит эффективность стемминга слов, которых нет в словарях.

10.12.2008 00:21

Другие вопросы по теме

Ищу сообщество Postgresql

Хороший провайдер OleDB / ODBC для PostgreSQL

Использование psql для запуска обновления

Параллелизм Postgresql

Как мне получить MIN () двух полей в Postgres?

Доступ к базе данных .NET / Mono - легкий доступ к столбцам?

Как заставить Postgres использовать определенный индекс?

Как проверить существующие агрегатные функции в Postgres?

Встроенные запросы - плохая идея?

Отладка триггера postgresql

Предотвратить выделение собственных существительных в PostgreSQL?

Ответы 2

Другие вопросы по теме

Похожие вопросы