Есть ли какая-нибудь библиотека java для преобразования документа из pdf в html?

Реализация с открытым исходным кодом будет предпочтительнее.

Я тоже хотел бы знать решение для этого. PDFBox может это сделать (java.dzone.com/articles/…), но очень ограниченным образом.

— 02.05.2011 15:15

java html pdf

11.12.2008 13:49

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

4 219

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Только за те, о которых я знаю, нужно платить.

BFO
JPedal

11.12.2008 14:08

Ответ принят как подходящий

Очевидно, это непростая задача, форматирование PDF намного богаче, чем HTML (плюс вы должны извлекать изображения, связывать их и т. д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу на боковой панели вашего вопроса аналогичный вопрос: Преобразование PDF в HTML с помощью Python, который указывает на библиотеку (poppler, которая, по-видимому, написана на C++, возможно, доступна с помощью JNI / JNA) и на связанный вопрос, который предлагает еще больше ответов.

11.12.2008 15:59

Попробуйте использовать PDFBox из основы apache.

05.11.2014 02:03