Почему регулярное выражение r"</.?>" не подхватывает "</\\\\>"?

Совпадение не найдено. Спасибо!

import re

re_tag = re.compile(r"</.?>")
text = r"</\\\\>"
match = re_tag.search(text)
print(match)

Если вы собираетесь использовать регулярное выражение для анализа XML или HTML, не делайте этого. Используйте правильный парсер для языков разметки.

DeepSpace 02.02.2019 17:42

Возможно, вы путаете ? с *? r'</.*>' будет соответствовать, среди прочего, произвольным закрывающим тегам. (Или, возможно, *?, который будет выполнять нежадное сопоставление, чтобы избежать ложных срабатываний.)

chepner 02.02.2019 17:44

Да, я разбираю HTML вручную. Причина в том, что моя основная цель - извлечь текст. Я попробовал BeautifulSoup, который, к сожалению, не сохраняет макет страницы. Мне приходится вручную добавлять разрывы строк.

Victor Wang 02.02.2019 17:52

Потому что в необработанном синтаксисе я считаю, что r"\\\\" - это 4 обратных слэша на уровне синтаксического анализа источника. Где движок регулярных выражений будет искать 2 обратных слэша, по одному для каждого \\

user557597 02.02.2019 17:56
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
4
52
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Ваша строка text содержит 4 символа обратной косой черты. Ваше регулярное выражение допускает только один необязательный символ между / и >. Например, будет соответствует 4-символьной строке, созданной r"</\>" или "</\\>".

Да, это должно было быть r"</.*?>".

Victor Wang 02.02.2019 17:47

Вы должны изменить свое выражение на что-то вроде этого (абсолютно я не знаю, что именно вы хотите проверить своим регулярным выражением):

re_tag = re.compile(r"</.{0,4}>")

Всего от 4 до 4 любых символов

Или вот так:

re_tag = re.compile(r"<.*>")

Если вы хотите получить любую длину чего-либо

Да, это помогает. Спасибо!

Victor Wang 02.02.2019 17:56

Другие вопросы по теме