Pandas — найти все строки, в которых специальные столбцы содержат часть текста

У меня проблема с поиском строк DataFrame, где два столбца содержат часть заданной строки s.

Значения столбца (тип String(Object))
Я имею в виду противоположность str.contains или isin(), потому что маска подстроки — это значение столбца.
Строка не подходит для четкого разделения, поскольку три значения «Название города», «Название района» и «Название улицы» могут содержать пробелы.

Вы можете помочь мне?

s = "Bad Testcity Teststr."
df_res = df.loc[(s.find(df['CITY'] != -1) & (s.find(df['DISTRICT'] != -1) & (s.find(df['STREET'] != -1)]`

Этот образец должен вернуть TRUE.

<bound method DataFrame.info of             ZIP              CITY               STREET NUMBER   NUMBER_SFX         DISTRICT   ONKZ ASB      ADSL      VDSL   VDSL_SV         VPSZ OUTDOOR
ID
4025217   12345  Bad Testcity          Teststr.          6              NaN  Bad Testcity  12345   2  +017.696  +102.784       NaN  49/12345/30       O
4025219   12345  Bad Testcity          Teststr.          7              NaN  Bad Testcity  12345   2  +017.696  +102.784       NaN  49/12345/30       O
4025242   12345  Bad Testcity          Teststr.          8              NaN  Bad Testcity  12345   2  +017.696  +102.784  +185.824  49/12345/30       O
4025244   12345  Bad Testcity          Teststr.         10              NaN  Bad Testcity  12345   2  +017.696  +102.784       NaN  49/12345/30       O
4025245   12345  Bad Testcity          Teststr.         11              NaN  Bad Testcity  12345   2  +017.696  +051.392       NaN  49/12345/30       O
...         ...              ...                   ...        ...              ...              ...    ...  ..       ...       ...       ...          ...     ...

[1569530 rows x 13 columns]>

как выглядит ваш фрейм данных?

— 12.03.2024 10:09

и какой именно текст вы хотите найти в столбцах?

— 12.03.2024 10:27

Обычно я создаю новый логический столбец с нужной вам логикой, а затем фильтрую его. Если вам не нужен этот столбец, вы можете удалить его.

— 12.03.2024 10:28

Я отредактировал строку поиска и опубликовал структуру DF.

— 12.03.2024 11:00

@ Chinny84: Хорошо, но проблема все та же. Как мне сформулировать условия для этой логики?

— 12.03.2024 11:04

df_res = df[df.apply(лямбда-строка: s в строке['CITY'] и s в строке['DISTRICT'], axis=1)] вам необходимо изменить лямбда-функцию внутри метода apply. В этой измененной строке мы проверяем, присутствует ли подстрока s в столбцах CITY и DISTRICT для каждой строки в DataFrame. Отрегулируйте эту строку в соответствии с вашими требованиями.

— 12.03.2024 11:15

python pandas substring

12.03.2024 10:07

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Предполагая этот ввод:

           ZIP          CITY    STREET  NUMBER  NUMBER_SFX      DISTRICT   ONKZ  ASB    ADSL     VDSL  VDSL_SV         VPSZ OUTDOOR
ID                                                                                                                                 
4025217  12345  Bad Testcity  Teststr.       6         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025219  12345  Bad Testcity  Teststr.       7         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025242  12345  Bad Testcity  Teststr.       8         NaN  Bad Testcity  12345    2  17.696  102.784  185.824  49/12345/30       O
4025244  12345  Bad Testcity  Teststr.      10         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025245  12345  Bad Testcity  Teststr.      11         NaN  Bad Testcity  12345    2  17.696   51.392      NaN  49/12345/30       O

Вы можете объединить столбцы через пробел, а затем использовать str.contains на выходе:

s = "Bad Testcity Teststr."

df_res = df.loc[(df['CITY']+' '+df['DISTRICT']+' '+df['STREET']).str.contains(s)]

Менее эффективная альтернатива (тем не менее может быть полезна):

df_res = df.loc[df[['CITY', 'DISTRICT', 'STREET']]
                .apply(' '.join, axis=1)
                .str.contains(s)]

Вывод (здесь без изменений):

           ZIP          CITY    STREET  NUMBER  NUMBER_SFX      DISTRICT   ONKZ  ASB    ADSL     VDSL  VDSL_SV         VPSZ OUTDOOR
ID                                                                                                                                 
4025217  12345  Bad Testcity  Teststr.       6         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025219  12345  Bad Testcity  Teststr.       7         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025242  12345  Bad Testcity  Teststr.       8         NaN  Bad Testcity  12345    2  17.696  102.784  185.824  49/12345/30       O
4025244  12345  Bad Testcity  Teststr.      10         NaN  Bad Testcity  12345    2  17.696  102.784      NaN  49/12345/30       O
4025245  12345  Bad Testcity  Teststr.      11         NaN  Bad Testcity  12345    2  17.696   51.392      NaN  49/12345/30       O

12.03.2024 10:59

Другие вопросы по теме

Замена <, содержащего значения в фрейме данных Python

Перебирая список списков, затем создайте фрейм данных

Как получить среднее значение последовательности, используя итератор в Pandas?

Поляры заменяют первые n строк определенными значениями

Как раскрасить гистограмму matplotlib по значениям в другом столбце фрейма данных

Как найти область под кривой только до этой точки в фрейме данных

Pandas удаляет строки только с одним типом значений, повторяющимися или нет

Соответствующая стратегия загрузки блоков в фрейм данных pandas с повторяющимися элементами

Отображать/печатать столбец в шестнадцатеричном виде в пандах?

Использовать Python для сравнения значений в двух полях и найти одно и то же значение?

Pandas — найти все строки, в которых специальные столбцы содержат часть текста

Ответы 1

Другие вопросы по теме

Похожие вопросы