Регулярные выражения .NET в бесконечном цикле

Я использую регулярные выражения .NET для удаления кода HTML.

Используя что-то вроде:

<title>(?<Title>[\w\W]+?)</title>[\w\W]+?<div class = "article">(?<Text>[\w\W]+?)</div>

Это работает в 99% случаев, но иногда при разборе ...

Regex.IsMatch(HTML, Pattern)

Парсер просто блокируется, и он будет продолжать выполнение этой строки кода в течение нескольких минут или бесконечно долго.

Что происходит?

c# vb.net visual-studio regex

27.11.2008 17:56

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

300

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Приложив некоторые усилия, вы можете заставить регулярное выражение работать с html - однако вы смотрели на Пакет гибкости HTML? Это значительно упрощает работу с html как с DOM, с поддержкой запросов типа xpath и т. д. (Например, "// div [@ class = 'article']").

27.11.2008 18:08

Вы просите свое регулярное выражение много делать там. После каждого символа он должен смотреть вперед, чтобы увидеть, можно ли сопоставить следующий бит текста со следующей частью шаблона.

Regex - это инструмент сопоставления с образцом. Хотя вы можете использовать его для простого синтаксического анализа, вам лучше использовать конкретный синтаксический анализатор (например, пакет HTML Agility, как упоминал мой Марк).

27.11.2008 18:10

Ответ принят как подходящий

Ваше регулярное выражение будет работать нормально, если ваша строка HTML действительно содержит HTML, соответствующий шаблону. Но когда ваш HTML не соответствует шаблону, например если последний тег отсутствует, в вашем регулярном выражении будет отображаться то, что я называю «катастрофический откат». Щелкните эту ссылку и прокрутите вниз до раздела «Быстрое сопоставление полного файла HTML». Он точно описывает вашу проблему. [\ w \ W] +? это сложный способ сказать. +? с RegexOptions.SingleLine.

27.11.2008 20:52

Другие вопросы по теме

Предупреждение компилятора: исключение нулевой ссылки

ASP.NET Как получить список групп в Active Directory

WriteOnly - свойство или метод?

LINQ или XSLT для преобразования одного элемента в другой в Visual Basic 9

Заполнить объект свойства во время вызова свойства

Завершение процесса взаимодействия с приложением

Перетаскивание ссылки на объект VB.Net

В чем разница между объявлением чего-то новым и чем-то = новым в vb.net?

Как отлаживать код IL, созданный во время выполнения, с помощью Reflection.Emit

.Net FormStartPosition.CenterScreen не центрируется

Регулярные выражения .NET в бесконечном цикле

Ответы 3

Другие вопросы по теме

Похожие вопросы