Как использовать алгоритм Stemming для списка слов в python

У меня есть список слов:

'AWS', 
'jQuery', 
'jQuery', 
'Sliding', 
'jQuery', 
'jQuery', 
'Manipulating', 
'Us!'

Я удалил общеупотребительные слова, и мне нужно применить стемминг, чтобы сделать список слов более понятным.

Мой код для удаления общих слов:

raw2 = second_headers CORPUS = Common_word_corpus  #my personal word corpus added here

corpus = [w.lower() for w in CORPUS]  
processed_H2_tag = [w for w in raw2.split(' ') if w.lower() not in corpus] 

print(processed_H2_tag)
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
0
33
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Как насчет этого?

# download wordnet
import nltk
nltk.download('wordnet')

# import these modules
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet 
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()

# choose some words to be stemmed
words = ['AWS', 
'jQuery', 
'jQuery', 
'Sliding', 
'jQuery', 
'jQuery', 
'Manipulating', 
'Manipulateing', 
'Manipulate', 
'Us!']
 
for w in words:
    print(w, " : ", lemmatizer.lemmatize(w.lower(), pos=wordnet.VERB))

Выход:

AWS  :  aws
jQuery  :  jquery
jQuery  :  jquery
Sliding  :  slide
jQuery  :  jquery
jQuery  :  jquery
Manipulating  :  manipulate
Manipulateing  :  manipulate
Manipulate  :  manipulate
Us!  :  us!

Я получаю вывод, подобный этому ... но такие слова, как манипулирование, следует понимать как манипулирование. AWS : aw jQuery : jqueri jQuery : jqueri Скольжение : слайд jQuery : jqueri jQuery : jqueri Управление : манипулирование Нас! : нас!

Jim jason 20.03.2022 17:05

Реализация алгоритма формирования основы (портера) не дает вам точного контроля над тем, как генерируется основа. Основа на самом деле может быть другой от истинной лингвистической базовой формы. Вместо этого вы ищете подход лемматизации?

KarelZe 20.03.2022 17:30

да, подход лемматизации будет уместен, если это позволит получить чистый вывод. Как это сделать?

Jim jason 20.03.2022 17:36

Я обновил ответ в соответствии с вашим комментарием.

KarelZe 20.03.2022 17:43

получение ошибки NameError <ipython-input-16-f67d9d8aff5f> в <module> 2 из nltk.stem import WordNetLemmatizer 3 из nltk.corpus import wordnet ----> 4 nltk.download('wordnet') 5 6 lemmatizer = WordNetLemmatizer() NameError: имя 'nltk' не определено

Jim jason 20.03.2022 17:52

Виноват. Забыл import nltk. Будет обновляться.

KarelZe 20.03.2022 17:54

Он работает именно так, как нужно. Спасибо за решение

Jim jason 20.03.2022 17:59

Другие вопросы по теме