Анализировать метатеги в Java

У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое тегов <meta> в разделе <head>. Это единственные HTML-теги, значения которых меня интересуют, т.е. мне не нужно ничего разбирать в разделе <body>.

Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе <body> не является допустимым XML.

Есть ли у кого-нибудь предложения о том, как я могу проанализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?

Ваше здоровье, Дон

возможный дубликат Быстрый способ найти значение в HTML (Java) (хотя ответы здесь лучше)

outis 29.03.2012 00:40
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
2
1
4 193
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Если это подходит вашему приложению, вы можете использовать Аккуратный для преобразования HTML в действительный XML, а затем использовать столько XPath, сколько захотите!

JTidy должен послужить хорошей отправной точкой для этого.

Ответ принят как подходящий

Вероятно, вы можете использовать Парсер HTML Jericho. В частности, взгляните на это, чтобы узнать, как вы можете найти определенные теги.

Другие вопросы по теме