Я не смог найти решение в stackoverflow для замены на основе словаря, в котором значения находятся в списке.
Словарь
dct = {"LOL": ["laught out loud", "laught-out loud"],
"TLDR": ["too long didn't read", "too long; did not read"],
"application": ["app"]}
Вход
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
("laught-out loud so I couldnt too long; did not read"),
("what happened?")], columns=['text'])
Ожидаемый результат
output_df = pd.DataFrame([("haha TLDR and LOL :D"),
("LOL so I couldnt TLDR"),
("what happened?")], columns=['text'])
Редактировать
В словарь добавлена дополнительная запись, например «приложение»: [«приложение»]
Текущие решения дают вывод «что произошло?»
Пожалуйста, предложите исправление.
Использование df.apply
и пользовательской функции
Бывший:
import pandas as pd
def custReplace(value):
dct = {"LOL": ["laught out loud", "laught-out loud"],
"TLDR": ["too long didn't read", "too long; did not read"]
}
for k, v in dct.items():
for i in v:
if i in value:
value = value.replace(i, k)
return value
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
("laught-out loud so I couldnt too long; did not read")], columns=['text'])
print(input_df["text"].apply(custReplace))
Выход:
0 haha TLDR and LOL :D
1 LOL so I couldnt TLDR
Name: text, dtype: object
или
dct = {"LOL": ["laught out loud", "laught-out loud"],
"TLDR": ["too long didn't read", "too long; did not read"]
}
dct = { "(" + "|".join(v) + ")": k for k, v in dct.items()}
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
("laught-out loud so I couldnt too long; did not read")], columns=['text'])
print(input_df["text"].replace(dct, regex=True))
Вот как я пойду:
import pandas as pd
dct = {"LOL": ["laught out loud", "laught-out loud"],
"TLDR": ["too long didn't read", "too long; did not read"]
}
input_df = pd.DataFrame([("haha too long didn't read and laught out loud :D"),
("laught-out loud so I couldnt too long; did not read")], columns=['text'])
dct_inv = {}
for key, vals in dct.items():
for val in vals:
dct_inv[val]=key
dct_inv
def replace_text(input_str):
for key, val in dct_inv.items():
input_str = str(input_str).replace(key, val)
return input_str
input_df.apply(replace_text, axis=1).to_frame()
Постройте перевернутое отображение и используйте Series.replace
с regex=True
.
mapping = {v : k for k, V in dct.items() for v in V}
input_df['text'] = input_df['text'].replace(mapping, regex=True)
print(input_df)
text
0 haha TLDR and LOL :D
1 LOL so I couldnt TLDR
Где,
print(mapping)
{'laught out loud': 'LOL',
'laught-out loud': 'LOL',
"too long didn't read": 'TLDR',
'too long; did not read': 'TLDR'}
Чтобы сопоставить полные слова, добавьте границы слов к каждому слову:
mapping = {rf'\b{v}\b' : k for k, V in dct.items() for v in V}
input_df['text'] = input_df['text'].replace(mapping, regex=True)
print(input_df)
text
0 haha TLDR and LOL :D
1 LOL so I couldnt TLDR
2 what happened?
Где,
print(mapping)
{'\\bapp\\b': 'application',
'\\blaught out loud\\b': 'LOL',
'\\blaught-out loud\\b': 'LOL',
"\\btoo long didn't read\\b": 'TLDR',
'\\btoo long; did not read\\b': 'TLDR'}
@ML_Pro, вы имеете в виду, что хотите, чтобы он соответствовал целым словам? Хм, в этом случае попробуйте изменить "app" на r "\ bapp \ b" и сделайте это для каждой заменяемой строки. Это граница слова регулярного выражения, которая будет соответствовать только целым словам.
Спасибо. Однако я загружаю диктант из файла JSON. Как преобразовать "приложение" в r "\ bapp \ b" с помощью кода Python? Я не смог найти функцию для преобразования строки в необработанную строку. Принял ваш ответ как ответ.
Превосходно. Понятно.
Я думаю, что наиболее логичным местом для начала будет перевернуть ваш словарь, чтобы ваш ключ был вашей исходной строкой, которая соответствует значению вашей новой строки. Вы можете сделать это вручную или миллион других способов, например:
import itertools
dict_rev = dict(itertools.chain.from_iterable([list(zip(v, [k]*len(v))) for k, v in dct.items()]))
Что не очень читаемо. Или тот, который выглядит лучше, и я украл из другого ответа:
dict_rev = {v : k for k, V in dct.items() for v in V}
Это требует, чтобы каждое из значений в вашем словаре находилось в списке (или другом итеративном), например. "new key": ["single_val"]
, иначе он взорвет каждый символ в строке.
Затем вы можете сделать следующее (на основе кода здесь Как заменить несколько подстрок в строке?)
import re
rep = dict((re.escape(k), v) for k, v in dict_rev.items())
pattern = re.compile("|".join(rep.keys()))
input_df["text"] = input_df["text"].str.replace(pattern, lambda m: rep[re.escape(m.group(0))])
Этот метод работает примерно в 3 раза быстрее, чем более простое и элегантное решение:
Простой:
%timeit input_df["text"].replace(dict_rev, regex=True)
425 µs ± 38.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Быстрее:
%timeit input_df["text"].str.replace(pattern, lambda m: rep[re.escape(m.group(0))])
160 µs ± 7.78 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
Блестяще! Предложите решение следующей проблемы. В словарь «приложение» добавлена дополнительная запись: [«приложение»] Текущие решения выдают вывод как «что произошло?»