Регулярные выражения .NET в бесконечном цикле

Я использую регулярные выражения .NET для удаления кода HTML.

Используя что-то вроде:

<title>(?<Title>[\w\W]+?)</title>[\w\W]+?<div class = "article">(?<Text>[\w\W]+?)</div>

Это работает в 99% случаев, но иногда при разборе ...

Regex.IsMatch(HTML, Pattern)

Парсер просто блокируется, и он будет продолжать выполнение этой строки кода в течение нескольких минут или бесконечно долго.

Что происходит?

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
300
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Приложив некоторые усилия, вы можете заставить регулярное выражение работать с html - однако вы смотрели на Пакет гибкости HTML? Это значительно упрощает работу с html как с DOM, с поддержкой запросов типа xpath и т. д. (Например, "// div [@ class = 'article']").

Вы просите свое регулярное выражение много делать там. После каждого символа он должен смотреть вперед, чтобы увидеть, можно ли сопоставить следующий бит текста со следующей частью шаблона.

Regex - это инструмент сопоставления с образцом. Хотя вы можете использовать его для простого синтаксического анализа, вам лучше использовать конкретный синтаксический анализатор (например, пакет HTML Agility, как упоминал мой Марк).

Ответ принят как подходящий

Ваше регулярное выражение будет работать нормально, если ваша строка HTML действительно содержит HTML, соответствующий шаблону. Но когда ваш HTML не соответствует шаблону, например если последний тег отсутствует, в вашем регулярном выражении будет отображаться то, что я называю «катастрофический откат». Щелкните эту ссылку и прокрутите вниз до раздела «Быстрое сопоставление полного файла HTML». Он точно описывает вашу проблему. [\ w \ W] +? это сложный способ сказать. +? с RegexOptions.SingleLine.

Другие вопросы по теме