Python Pandas: часть NLTK тегирования речи для всего столбца в Dataframe

У меня есть следующий образец фрейма данных, показанный ниже. Он уже токенизирован.

No  category    problem_definition_stopwords
175 2521       ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438       ['galley', 'work', 'table', 'stuck']
912 2698       ['cloth', 'stuck']
572 2521       ['stuck', 'coffee']

Я хочу сделать часть тегов речи на этом фрейме данных. Ниже начало моего кода. Это ошибка:

from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer 

train_text = state_union.raw(df['problem_definition_stopwords'])

Ошибка

TypeError: join() argument must be str or bytes, not 'list'

Мой желаемый результат ниже, где «XXX» - это токенизированное слово, а после него - часть речи (например, NNP):

[('XXX', 'NNP'), ('XXX', 'VBD'), ('XXX', 'POS')]

каков ваш ожидаемый результат

BENY 18.12.2018 22:15

Я думаю, вы не понимаете, что такое state_union.raw(). Это сборник (корпус) документов президентских государственных союзных адресов. Вы не можете "вызвать" это в своем фреймворке данных, потому что ваш фрейм данных не является документом в корпусе state_union.

G. Anderson 18.12.2018 22:38

о, черт возьми, ты прав!

PineNuts0 18.12.2018 22:41
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
3
1 081
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Преобразуйте task_definition_stopwords в строку и перейдите к nltk.sent_tokenize, если вы пытаетесь токенизировать и получить POS с pos_tag.

Другие вопросы по теме