Как заменить группу строк в серии pandas на основе словаря со значениями в виде списка?

Я не смог найти решение в stackoverflow для замены на основе словаря, в котором значения находятся в списке.

Словарь

dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"],
        "application": ["app"]}

Вход

input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
                         ("laught-out loud so I couldnt too long; did not read"),
                         ("what happened?")], columns=['text'])

Ожидаемый результат

output_df = pd.DataFrame([("haha TLDR and LOL :D"),
                          ("LOL so I couldnt TLDR"),
                          ("what happened?")], columns=['text'])

Редактировать

В словарь добавлена ​​дополнительная запись, например «приложение»: [«приложение»]

Текущие решения дают вывод «что произошло?»

Пожалуйста, предложите исправление.

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
3
0
322
4
Перейти к ответу Данный вопрос помечен как решенный

Ответы 4

Использование df.apply и пользовательской функции

Бывший:

import pandas as pd


def custReplace(value):
    dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"]
        }

    for k, v in dct.items():
        for i in v:
            if i in value:
                value = value.replace(i, k)
    return value

input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
       ("laught-out loud so I couldnt too long; did not read")], columns=['text'])

print(input_df["text"].apply(custReplace))

Выход:

0     haha TLDR and LOL :D
1    LOL so I couldnt TLDR
Name: text, dtype: object

или

dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"]
        }

dct = { "(" + "|".join(v) + ")": k for k, v in dct.items()}
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
       ("laught-out loud so I couldnt too long; did not read")], columns=['text'])

print(input_df["text"].replace(dct, regex=True))

Вот как я пойду:

import pandas as pd


dct  = {"LOL": ["laught out loud", "laught-out loud"],
        "TLDR": ["too long didn't read", "too long; did not read"]
        }

input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
       ("laught-out loud so I couldnt too long; did not read")], columns=['text'])

dct_inv = {}
for key, vals in dct.items():
    for val in vals:
        dct_inv[val]=key

dct_inv

def replace_text(input_str):
    for key, val in dct_inv.items():
        input_str = str(input_str).replace(key, val)
    return input_str

input_df.apply(replace_text, axis=1).to_frame()
Ответ принят как подходящий

Постройте перевернутое отображение и используйте Series.replace с regex=True.

mapping = {v : k for k, V in dct.items() for v in V}
input_df['text'] = input_df['text'].replace(mapping, regex=True)

print(input_df)
                    text
0   haha TLDR and LOL :D
1  LOL so I couldnt TLDR

Где,

print(mapping)
{'laught out loud': 'LOL',
 'laught-out loud': 'LOL',
 "too long didn't read": 'TLDR',
 'too long; did not read': 'TLDR'}

Чтобы сопоставить полные слова, добавьте границы слов к каждому слову:

mapping = {rf'\b{v}\b' : k for k, V in dct.items() for v in V}
input_df['text'] = input_df['text'].replace(mapping, regex=True)

print(input_df)
                    text
0   haha TLDR and LOL :D
1  LOL so I couldnt TLDR
2         what happened?

Где,

print(mapping)
{'\\bapp\\b': 'application',
 '\\blaught out loud\\b': 'LOL',
 '\\blaught-out loud\\b': 'LOL',
 "\\btoo long didn't read\\b": 'TLDR',
 '\\btoo long; did not read\\b': 'TLDR'}

Блестяще! Предложите решение следующей проблемы. В словарь «приложение» добавлена ​​дополнительная запись: [«приложение»] Текущие решения выдают вывод как «что произошло?»

GeorgeOfTheRF 31.10.2018 08:55

@ML_Pro, вы имеете в виду, что хотите, чтобы он соответствовал целым словам? Хм, в этом случае попробуйте изменить "app" на r "\ bapp \ b" и сделайте это для каждой заменяемой строки. Это граница слова регулярного выражения, которая будет соответствовать только целым словам.

cs95 31.10.2018 09:41

Спасибо. Однако я загружаю диктант из файла JSON. Как преобразовать "приложение" в r "\ bapp \ b" с помощью кода Python? Я не смог найти функцию для преобразования строки в необработанную строку. Принял ваш ответ как ответ.

GeorgeOfTheRF 09.11.2018 04:46

Превосходно. Понятно.

GeorgeOfTheRF 09.11.2018 04:59

Я думаю, что наиболее логичным местом для начала будет перевернуть ваш словарь, чтобы ваш ключ был вашей исходной строкой, которая соответствует значению вашей новой строки. Вы можете сделать это вручную или миллион других способов, например:

import itertools
dict_rev = dict(itertools.chain.from_iterable([list(zip(v, [k]*len(v))) for k, v in dct.items()]))

Что не очень читаемо. Или тот, который выглядит лучше, и я украл из другого ответа:

dict_rev = {v : k for k, V in dct.items() for v in V}

Это требует, чтобы каждое из значений в вашем словаре находилось в списке (или другом итеративном), например. "new key": ["single_val"], иначе он взорвет каждый символ в строке.

Затем вы можете сделать следующее (на основе кода здесь Как заменить несколько подстрок в строке?)

import re
rep = dict((re.escape(k), v) for k, v in dict_rev.items())
pattern = re.compile("|".join(rep.keys()))
input_df["text"] = input_df["text"].str.replace(pattern, lambda m: rep[re.escape(m.group(0))])

Этот метод работает примерно в 3 раза быстрее, чем более простое и элегантное решение:

Простой:

%timeit input_df["text"].replace(dict_rev, regex=True)

425 µs ± 38.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Быстрее:

%timeit input_df["text"].str.replace(pattern, lambda m: rep[re.escape(m.group(0))])

160 µs ± 7.78 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Другие вопросы по теме