Есть ли какая-нибудь библиотека java для преобразования документа из pdf в html?

Реализация с открытым исходным кодом будет предпочтительнее.

Я тоже хотел бы знать решение для этого. PDFBox может это сделать (java.dzone.com/articles/…), но очень ограниченным образом.

Alp 02.05.2011 15:15
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
6
1
4 219
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Только за те, о которых я знаю, нужно платить.

BFO
JPedal

Ответ принят как подходящий

Очевидно, это непростая задача, форматирование PDF намного богаче, чем HTML (плюс вы должны извлекать изображения, связывать их и т. д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу на боковой панели вашего вопроса аналогичный вопрос: Преобразование PDF в HTML с помощью Python, который указывает на библиотеку (poppler, которая, по-видимому, написана на C++, возможно, доступна с помощью JNI / JNA) и на связанный вопрос, который предлагает еще больше ответов.

Попробуйте использовать PDFBox из основы apache.

Другие вопросы по теме