Как классифицировать данные в pandas, используя содержащиеся ключевые слова

Пусть df будет кадром данных следующим образом:

      date   text
0  2019-6-7  London is good.             
1  2019-5-8  I am going to Paris.        
2  2019-4-4  Do you want to go to London?
3  2019-3-7  I love Paris!

Я хотел бы добавить столбец city, в котором указан город, содержащийся в text, то есть,

       date  text                          city
0  2019-6-7  London is good.               London
1  2019-5-8  I am going to Paris.          Paris 
2  2019-4-4  Do you want to go to London?  London
3  2019-3-7  I love Paris!                 Paris

Как это сделать без использования lambda?

python pandas

09.07.2019 05:28

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Вы можете сначала убедиться, что у вас есть список городов, а затем str.findall

df.text.str.findall('London|Paris').str[0]
Out[320]: 
0    London
1     Paris
2    London
3     Paris
Name: text, dtype: object
df['city'] = df.text.str.findall('London|Paris').str[0]

Следующий шаг — df.groupby('city')['date'].max(), но он содержит только date и city, но не text. Как включить все столбцы?

— 09.07.2019 05:39

@ Чан df.loc[df.groupby('city')['date'].idxmax()] :-)

— 09.07.2019 05:40

09.07.2019 05:31

Добавляя к методу @WenYoBen, если в одном тексте есть только Париж или Лондон, тогда лучше str.extract:

regex = '(London|Paris)'
df['city'] = df.text.str.extract(regex)
df

       date         text                        city
0   2019-6-7    London is good.                 London
1   2019-5-8    I am going to Paris.            Paris
2   2019-4-4    Do you want to go to London?    London
3   2019-3-7    I love Paris!                   Paris

И если вы хотите, чтобы все города в вашем регулярном выражении были в тексте, тогда str.extractall также является вариантом:

df['city'] = df.text.str.extractall(regex).values
df
          date  text                           city
0    2019-6-7   London is good.                London
1    2019-5-8   I am going to Paris.           Paris
2    2019-4-4   Do you want to go to London?   London
3    2019-3-7   I love Paris!                  Paris

Обратите внимание, что если есть несколько совпадений, Extractall вернет список

09.07.2019 05:43