Сравнение строк, унифицирующих специальные символы в Python

Вероятно, я мог бы использовать лучший английский, но я хочу игнорировать акцент (и тому подобное) в словах, поэтому:

renè, rené, rene' и rene должны быть одинаковыми, поэтому должно быть

mañana и manana или

even-distribuited и even distribuited и возможно

shouldn't и shouldnt

Я помню функцию (заимствованную из журналистики), используемую, например, для адресов интернет-страниц, которые должны удалять пробелы, акценты и т. д., но я не помню названия. Я думаю, это должно работать, но допускается другой способ

Спасибо

Возможный дубликат: stackoverflow.com/q/517923/13951118

— 24.07.2024 09:53

Во второй части вы можете просто re.sub убрать ненужных вам персонажей.

— 24.07.2024 09:54

python string compare

24.07.2024 09:46

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Кажется, в этом вопросе обсуждается стандартный подход к избавлению от специальных символов . Но, возможно, вы могли бы рассмотреть другой подход, который часто называют нечетким сопоставлением (или нечетким поиском).

[...] метод поиска строк, которые приблизительно (а не точно) соответствуют шаблону

В Python для этого можно использовать TheFuzz. Вот попытка на основе ваших примеров.

from thefuzz import fuzz

tuples = [("mañana", "manana"), ("shouldn't", "shouldnt"), ("even-distribuited", "even distribuited")]

for tuple in tuples:
  print(f"{tuple[0]} vs {tuple[1]}: {fuzz.ratio(tuple[0], tuple[1])}")

# mañana vs manana: 83
# shouldn't vs shouldnt: 94
# even-distribuited vs even distribuited: 94

Таким образом, вы можете определить правило, основанное на соотношении, чтобы сделать вывод о совпадении между двумя строками.

Вы даже можете объединить нормализацию Юникода и нечеткое сопоставление для достижения лучших результатов.

tuples = [("mañana", "manana"), ("shouldn't", "shouldnt"), ("even-distribuited", "even distribuited")]

def compare(tuples, unicode=True):
  for t in tuples:
    if unicode:
      t = tuple(map(lambda x: unicodedata.normalize(u'NFKD', x).encode('ascii', 'ignore').decode('utf8'), t))
    print(f"{t[0]} vs {t[1]}: {fuzz.ratio(t[0], t[1])}")

compare(tuples)

# manana vs manana: 100
# shouldn't vs shouldnt: 94
# even-distribuited vs even distribuited: 94

24.07.2024 10:17

Другие вопросы по теме

Как определить перекрывающуюся последовательность слов в двух текстах

Найдите самый длинный элемент в массиве строк в MongoDB

Строка Python: извлеките дублированную и случайно объединенную подстроку

Строка, выделенная в куче, повреждается при доступе за пределами функции C

Р: Эффективный способ str_replace_all без рекурсивной замены конфликтующих замен?

Я не могу воспроизвести ввод, встроенный в интерфейс конкурса

Манипулирование строками на основе длины символа в фрейме данных

Строка Java, разделенная пустыми строками, включая пустые строки в конце

Поиск целого числа с максимальным индексом в строке – C#

Как преобразовать длинную шестнадцатеричную строку в массив байтов (0x69, 0x63 и т. д. и т. п.)

Сравнение строк, унифицирующих специальные символы в Python

Ответы 1

Другие вопросы по теме

Похожие вопросы