Объект получения серии 'не имеет атрибута' split '",' произошло по идентификатору индекса при удалении частого слова из твитов

Я пробую анализ настроений из сообщения в твиттере. Я новичок в анализе тональности. На этапе предварительной обработки текста я столкнулся с проблемой удаления часто встречающихся слов из твитов. я хочу удалить наиболее часто встречающиеся слова из твитов, поэтому я посчитал самые частые слова в твитах

freq=pd.Series(''.join(traindata['tweet']).split()).value_counts()[:10]

затем я преобразовал серию freq в список

freq=list(freq.index)

До этого момента мой результат показывает enter image description here

Для фильтрации моего столбца twitter_word путем удаления часто используемых слов. Я использовал код ниже

traindata['tweet']=traindata.apply(lambda x:" ".join(x for x in x.split() if x not in freq))

и у меня ошибка ниже

Файл "C: \ Users \ codemen \ Anaconda3 \ lib \ site-packages \ pandas \ core \ generic.py", строка 3614, в __getattr__ вернуть объект .__ getattribute __ (я, имя) AttributeError: ("Объект" Серия "не имеет атрибута" split "", "произошло по идентификатору индекса")

любезно помогите мне разобраться в проблеме. Спасибо

1
0
7 341
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я считаю, что вам нужно указать столбец для apply, иначе цикл всех столбцов DataFrame:

f = lambda x:" ".join(x for x in x.split() if x not in freq)
traindata['tweet'] = traindata['tweet'].apply(f)

Другие вопросы по теме