Как сделать исключение для .isalnum()?

Я пытаюсь удалить нежелательные специальные символы из моей строки в списке, используя функцию .isalnum() в цикле по каждому символу в словах, и я использую условие для помещения исключения для символа апострофа для случаев, таких как «не могу ", "не было", "не будет". Но он также сохраняет этот символ для случаев, которые мне не нужны, таких как " ' ", " 'не могу", " 'привет' ". Есть ли способ сохранить только то, что символ находится в середине слов?

data_set = "Hello WOrld &()*hello world ////dog /// cat world hello can't "

split_it = data_set.lower().split()
new_word = ''
new_list = list()
for word in split_it:
    new_word = ''.join([x for x in word if x.isalnum() or x == " ' "])
    new_list.append(new_word)

print(new_list)

['привет', 'мир', 'привет', 'мир', 'собака', '', 'кошка', 'мир', 'привет', "не могу"]

Каков ваш ожидаемый результат?

AKX 27.05.2019 08:36

Итак, вы не хотите удалять апостроф в can't?

Devesh Kumar Singh 27.05.2019 08:37

@DeveshKumarSingh точно

Vincent.N 27.05.2019 08:40

@AKX Я уже обновил ожидаемый вывод словом «не могу»

Vincent.N 27.05.2019 08:41
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
4
467
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Если вы знаете все символы, которые вам не нужны, вы можете использовать .strip(), чтобы удалить их только в начале и в конце:

>>> words = "Hello WOrld &()*hello world ////dog /// cat world hello can't ".lower().split()
>>> cleaned_words = [word.strip("&()*/") for word in words]
>>> print(cleaned_words)
['hello', 'world', 'hello', 'world', 'dog', '', 'cat', 'world', 'hello', "can't"]

В противном случае вам, вероятно, понадобится регулярное выражение, которое соответствует любому символу, кроме тех, которые занесены в белый список, привязаны к началу или концу строки, а затем используйте re.sub() для их удаления:

>>> import re
>>> nonalnum_at_edge_re = re.compile(r'^[^a-z0-9]+|[^a-z0-9]+$', re.I)
>>> cleaned_words = [re.sub(nonalnum_at_edge_re, '', word) for word in words]
['hello', 'world', 'hello', 'world', 'dog', '', 'cat', 'world', 'hello', "can't"]

Вы можете использовать регулярное выражение, которое соответствует любому символу, который не является строчной буквой или цифрой, и либо перед ним (начало слова), либо после него (конец слова) нет такого символа:

import re

phrase = "Hello WOrld &()*hello world ////dog /// cat world hello can't "

regex = re.compile(r'(?<![a-z0-9])([^a-z0-9])|([^a-z0-9])(?![a-z0-9])')

print([re.sub(regex, '', word) for word in phrase.lower().split()])

Выход:

['hello', 'world', 'hello', 'world', 'dog', '', 'cat', 'world', 'hello', "can't"]

Это выглядит сложным регулярным выражением, не могли бы вы разбить его, пожалуйста

Devesh Kumar Singh 27.05.2019 08:50

@DeveshKumarSingh Это в основном соответствует всем случаям, когда у вас есть что-то, что не является строчной буквой или цифрой, а также перед ней или после нее нет строчной буквы или цифры. Однако, вероятно, есть лучший способ сделать это; см. ответ АКХ.

gmds 27.05.2019 08:54

Хорошо, что означают ?<! и ?!?

Devesh Kumar Singh 27.05.2019 08:57

Мои познания в регулярных выражениях не так уж велики, но это, кажется, тоже работает: re.compile(r'(?<![a-z0-9])([^a-z0-9])'), что выглядит немного проще.

funie200 27.05.2019 09:02

@DeveshKumarSingh Это отрицательные утверждения с просмотром назад и просмотром вперед (в основном, они говорят «сопоставьте меня, если это не появится передо мной» и «сопоставьте меня, если это не появится после меня».

gmds 27.05.2019 09:03

Другие вопросы по теме