MarkLogic базовый стемминг

У меня установлен язык базы данных en, а для stemmed searches - Basic, word searches отключен.

Для документа, подобного следующему, я выполнил запросы только для работы с первой / самой короткой основой, которая будет найдена (как описано здесь). Ствол для further возвращает 3 стебля: дальше, дальше и дальше. Я проверил это с

cts:stem("further")

Так как базовый поиск по основам должен индексировать только самую короткую основу, я ожидал, что поиск с помощью farther не найдет мой документ. Но это не так.

xquery version "1.0-ml";

let $doc := 
<doc>
  <title>further</title>
</doc>

return xdmp:document-insert('test.xml', $doc);

cts:search(doc(), cts:word-query("farther")); // finds my document

cts:stem("further")

Я что-то недопонимаю? Почему поиск farther находит документ с further, даже если это не самая короткая / первая основа?

Также поиск по третьей основе находит мой документ, даже если с параметром «без стебля» (в данном случае включен word searches).

cts:search(doc(), cts:word-query("further", ("unstemmed")));

Использование MarkLogic 9.0-7.2.

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
58
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Универсальный указатель в MarkLogic состоит из нескольких частей. Один для поиска с ограничениями, а другой - для поиска без шаблонов / поиска с подстановочными знаками. Основа индекса содержит основы, а часть без стебля содержит маркеры без стебля. Вот почему поиск без стебля по фактическому значению находит совпадение.

О поиске по основам: как вы можете прочитать в документации cts:stem, эта функция возвращает все основы независимо от настройки базы данных. Однако порядок, в котором он их возвращает, важен. cts:stem("further") возвращает far, further, farther, cts:stem("farther") возвращает far, farther, further, а cts:stem("far") возвращает far.

Насколько я понял, базовый стемминг берет первый элемент, возвращаемый cts: stem, и использует его для индексации. Как вы можете прочитать выше, это означает, что он использует far для further, farther, а также для far. Расширенное определение границ позволит вам найти further при выполнении поиска по ограничению поиска farther, и наоборот.

Более подробная информация доступна в Руководстве по поиску в разделе: 'Создание в MarkLogic'

HTH!

Это помогло. Спасибо за объяснение.

Wagner Michael 17.12.2018 15:05

Другие вопросы по теме