Анализировать метатеги в Java

У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое тегов <meta> в разделе <head>. Это единственные HTML-теги, значения которых меня интересуют, т.е. мне не нужно ничего разбирать в разделе <body>.

Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе <body> не является допустимым XML.

Есть ли у кого-нибудь предложения о том, как я могу проанализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?

Ваше здоровье, Дон

возможный дубликат Быстрый способ найти значение в HTML (Java) (хотя ответы здесь лучше)

— 29.03.2012 00:40

java html xml parsing

18.11.2008 19:49

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

4 193

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Если это подходит вашему приложению, вы можете использовать Аккуратный для преобразования HTML в действительный XML, а затем использовать столько XPath, сколько захотите!

18.11.2008 19:52

JTidy должен послужить хорошей отправной точкой для этого.

18.11.2008 19:54

Ответ принят как подходящий

Вероятно, вы можете использовать Парсер HTML Jericho. В частности, взгляните на это, чтобы узнать, как вы можете найти определенные теги.

18.11.2008 19:56