Как программно проверить HTML-документ

У меня есть база данных, полная небольших HTML-документов, и мне нужно программно вставить несколько, скажем, в PDF-документ с iText или документ Word с Aspose.Words. Мне нужно сохранить любое форматирование в HTML-документах (в разумных пределах соблюдение тегов <b> является обязательным, CSS вроде <span style = "blah"> - это хорошо).

И iText, и Aspose работают (примерно) примерно так:

Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

Поэтому (я думаю) мне нужен какой-то HTML-парсер, который я могу проверить на наличие строк и стилей для вставки в мой документ.

Кто-нибудь может предложить хорошую библиотеку или разумный подход к этой проблеме? Платформа - это Java

java html parsing

20.10.2008 17:59

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

3 928

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Adobe Acrobat Pro позволяет захватывать сайты через HTTP и отлично справляется с сохранением стиля и макета. Я не использовал его с точки зрения API, но, возможно, стоит изучить его.

20.10.2008 18:51

Если HTML - это «правильно сформированный XML» (XHTML), почему бы не использовать синтаксический анализатор XML (например, Xerces), а затем программно проверить дерево DOM.

20.10.2008 19:31

Ответ принят как подходящий

HTMLparser - хороший парсер HTML.

Я использовал это для анализа HTML в одном из моих проектов.

Вы можете написать свои собственные фильтры для анализа HTML на предмет того, что вы хотите, поэтому Тег <br> разобрать несложно

Вы можете разобрать CSS, используя CssSelectorNodeFilter

Это предложение позволило мне создать элементарную версию того, что я хочу, примерно за час и около 100 строк кода. Победитель - это ты!

— 23.10.2008 11:20

21.10.2008 00:26

Вам, вероятно, было бы лучше получить компонент, который переходит непосредственно из HTML в PDF или Word, а затем попытаться проанализировать HTML-документ и самостоятельно продублировать форматирование на основе HTML. Если вы хотите преобразовать HTML в PDF и используете .Net, Winnovative является хорошим решением.

21.10.2008 00:36

Обратите внимание на рендерер xhtml летающая тарелка - они отображают правильно сформированные файлы XHTML в PDF и позволяют управлять выводом с помощью CSS.

21.10.2008 05:36

Другие вопросы по теме

Являются ли наборы полей более жизнеспособным вариантом при создании форм?

Укладка горизонтальных правил

Перелив влево вместо вправо

Как совместить изображения маркеров с содержимым <li>?

Как применить CSS к iframe?

Не позволять изменению размера текста перемещать другие элементы в его контейнере?

Как лучше всего передавать переменные с одной HTML-страницы на другую?

Как вы можете использовать BeautifulSoup для получения чисел colindex?

Как скрыть середину таблицы с помощью jQuery?

Загрузка объекта ActiveX на html-страницу приложения Flex

Как программно проверить HTML-документ

Ответы 5

Другие вопросы по теме

Похожие вопросы