Я использую регулярные выражения .NET для удаления кода HTML.
Используя что-то вроде:
<title>(?<Title>[\w\W]+?)</title>[\w\W]+?<div class = "article">(?<Text>[\w\W]+?)</div>
Это работает в 99% случаев, но иногда при разборе ...
Regex.IsMatch(HTML, Pattern)
Парсер просто блокируется, и он будет продолжать выполнение этой строки кода в течение нескольких минут или бесконечно долго.
Что происходит?





Приложив некоторые усилия, вы можете заставить регулярное выражение работать с html - однако вы смотрели на Пакет гибкости HTML? Это значительно упрощает работу с html как с DOM, с поддержкой запросов типа xpath и т. д. (Например, "// div [@ class = 'article']").
Вы просите свое регулярное выражение много делать там. После каждого символа он должен смотреть вперед, чтобы увидеть, можно ли сопоставить следующий бит текста со следующей частью шаблона.
Regex - это инструмент сопоставления с образцом. Хотя вы можете использовать его для простого синтаксического анализа, вам лучше использовать конкретный синтаксический анализатор (например, пакет HTML Agility, как упоминал мой Марк).
Ваше регулярное выражение будет работать нормально, если ваша строка HTML действительно содержит HTML, соответствующий шаблону. Но когда ваш HTML не соответствует шаблону, например если последний тег отсутствует, в вашем регулярном выражении будет отображаться то, что я называю «катастрофический откат». Щелкните эту ссылку и прокрутите вниз до раздела «Быстрое сопоставление полного файла HTML». Он точно описывает вашу проблему. [\ w \ W] +? это сложный способ сказать. +? с RegexOptions.SingleLine.