Как выполнить стемминг и лемматизацию в R?

Я обрабатываю текстовые данные, которые имеют строку, подобную приведенной ниже.

"significant step towards large scale hydrogen production iisc team collaboration jncasr researcher develop low cost catalyst speed split water generate hydrogen gas"

Чтобы получить правильную форму слов в тексте... необходимо выполнить стемминг или лемматизацию. Я делаю это, но это не дает желаемого результата

stemDocument(p[1], language = "english")

[1] "signific step toward larg scale hydrogen product iisc team collabor jncasr research develop low cost catalyst speed split water generat hydrogen gas"

lemmatize_strings(p[1], dictionary = lexicon::hash_lemmas)

[1] "significant step towards large scale hydrogen production iisc team collaboration jncasr researcher develop low cost catalyst speed split water generate hydrogen gas"

Как получить такой вывод

significant step toward large scale hydrogen produce iisc team collaborate jncasr research develop low cost catalyst speed split water generate hydrogen gas

3 метода стилизации элементов HTML
3 метода стилизации элементов HTML
Когда дело доходит до применения какого-либо стиля к нашему HTML, существует три подхода: встроенный, внутренний и внешний. Предпочтительным обычно...
Формы c голосовым вводом в React с помощью Speechly
Формы c голосовым вводом в React с помощью Speechly
Пытались ли вы когда-нибудь заполнить веб-форму в области электронной коммерции, которая требует много кликов и выбора? Вас попросят заполнить дату,...
Стилизация и валидация html-формы без использования JavaScript (только HTML/CSS)
Стилизация и валидация html-формы без использования JavaScript (только HTML/CSS)
Будучи разработчиком веб-приложений, легко впасть в заблуждение, считая, что приложение без JavaScript не имеет права на жизнь. Нам становится удобно...
Flatpickr: простой модуль календаря для вашего приложения на React
Flatpickr: простой модуль календаря для вашего приложения на React
Если вы ищете пакет для быстрой интеграции календаря с выбором даты в ваше приложения, то библиотека Flatpickr отлично справится с этой задачей....
В чем разница между Promise и Observable?
В чем разница между Promise и Observable?
Разберитесь в этом вопросе, и вы значительно повысите уровень своей компетенции.
Что такое cURL в PHP? Встроенные функции и пример GET запроса
Что такое cURL в PHP? Встроенные функции и пример GET запроса
Клиент для URL-адресов, cURL, позволяет взаимодействовать с множеством различных серверов по множеству различных протоколов с синтаксисом URL.
1
0
1 249
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вероятно, стоит дать пакет, который вы используете. Чтобы сделать то, что вы хотите, вы можете сделать следующее со следующими двумя пакетами:

library(udpipe)

# This takes a minute to download the english dictionary
x <- udpipe(x = "significant step towards large scale hydrogen production iisc team 
            collaboration jncasr researcher develop low cost catalyst 
            speed split water generate hydrogen gas",
            object = "english")

Это даст вам все виды информации для вашего анализа, включая токен, лемму и т. д. Вы можете многое сделать с этим.

 x$lemma
 [1] "significant"   "step"          "towards"       "large"         "scale"         "hydrogen"      "production"   
 [8] "iisc"          "team"          "collaboration" "jncasr"        "researcher"    "develop"       "low"          
[15] "cost"          "catalyst"      "speed"         "split"         "water"         "generate"      "hydrogen"     
[22] "gas" 

Чтобы определить слово, вы можете использовать пакет tm. Если вы хотите остановить леммы, они у вас есть:

library(tm)
tm::stemDocument(x$lemma)

Что даст вам следующее:

[1] "signific" "step"     "toward"   "larg"     "scale"    "hydrogen" "product"  "iisc"     "team"     "collabor"
[11] "jncasr"   "research" "develop"  "low"      "cost"     "catalyst" "speed"    "split"    "water"    "generat" 
[21] "hydrogen" "gas"     

Другие вопросы по теме