Как применить нижний регистр к строке с помощью Lucene

Я начинаю работать с Apache Lucene 8.0. Я хотел бы знать, как преобразовать мою переменную String text в нижний регистр с помощью Lucene. Я не совсем уверен, как это сделать, потому что я не мог найти никаких примеров. То, что я хочу, было бы примерно так:

public class DocumentLowercase {

private Analyzer analyzer; 

public Analyzer DocAnalysis(Document d) {

    analyzer = new StandardAnalyzer();
    String text = d.text();

    **Here convert String Text into lowercase**
    ** maybe using Lower Case Tokenizer? but how? **        

    return analyzer;


}
}
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
0
0
411
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

StandardAnalyzer уже переводит все в нижний регистр!

Проверьте документы здесь: http://lucene.apache.org/core/8_0_0/core/org/apache/lucene/analysis/standard/StandardAnalyzer.html

Они говорят:

Filters StandardTokenizer with LowerCaseFilter and StopFilter, using a configurable list of stop words.

Вы также можете увидеть в исходном коде, какие компоненты включает в себя StandardAnalyzer:

  @Override
  protected TokenStreamComponents createComponents(final String fieldName) {
    final StandardTokenizer src = new StandardTokenizer();
    src.setMaxTokenLength(maxTokenLength);
    TokenStream tok = new LowerCaseFilter(src);
    tok = new StopFilter(tok, stopwords);
    return new TokenStreamComponents(r -> {
      src.setMaxTokenLength(StandardAnalyzer.this.maxTokenLength);
      src.setReader(r);
    }, tok);
  }

Если вы все равно хотите настроить свой анализатор, вам следует заглянуть в CustomAnalyzer.

Другие вопросы по теме