Мне нужно проанализировать большой объем текста, который использует теги шрифтов HTML для форматирования,
Например:
<font face = "fontname" ...>Some text</font>
В частности, мне нужно определить, какие символы будут отображаться с использованием каждого шрифта, используемого в тексте. Мне нужно иметь возможность обрабатывать такие вещи, как теги шрифтов внутри другого тега шрифта.
Для этого мне нужно использовать C#. Есть ли какой-нибудь класс синтаксического анализатора C#, чтобы упростить это? Или мне придется писать самому?
Спасибо!





Я не использовал его, но я видел, что Пакет гибкости HTML часто упоминается для этого типа вещей.
Не уверен, применимо ли это к вашей ситуации, так как я не знаю, каково предполагаемое использование, но как насчет использования XSLT tempaltes?
Вы можете загрузить HTML-код в Internet Explorer, а затем запросить в DOM теги шрифтов (или стиль CSS).
Не знаю, является ли это лучшим вариантом с точки зрения производительности.
Вы предлагаете отправлять HTML в XSLT?