У меня есть коллекция HTML-документов, для которых мне нужно проанализировать содержимое тегов <meta> в разделе <head>. Это единственные HTML-теги, значения которых меня интересуют, т.е. мне не нужно ничего разбирать в разделе <body>.
Я попытался проанализировать эти значения, используя поддержку XPath, предоставляемую JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе <body> не является допустимым XML.
Есть ли у кого-нибудь предложения о том, как я могу проанализировать эти значения тегов таким образом, чтобы они могли работать с искаженным HTML?
Ваше здоровье, Дон




Если это подходит вашему приложению, вы можете использовать Аккуратный для преобразования HTML в действительный XML, а затем использовать столько XPath, сколько захотите!
JTidy должен послужить хорошей отправной точкой для этого.
Вероятно, вы можете использовать Парсер HTML Jericho. В частности, взгляните на это, чтобы узнать, как вы можете найти определенные теги.
возможный дубликат Быстрый способ найти значение в HTML (Java) (хотя ответы здесь лучше)