



Очевидно, это непростая задача, форматирование PDF намного богаче, чем HTML (плюс вы должны извлекать изображения, связывать их и т. д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу на боковой панели вашего вопроса аналогичный вопрос: Преобразование PDF в HTML с помощью Python, который указывает на библиотеку (poppler, которая, по-видимому, написана на C++, возможно, доступна с помощью JNI / JNA) и на связанный вопрос, который предлагает еще больше ответов.
Попробуйте использовать PDFBox из основы apache.
Я тоже хотел бы знать решение для этого. PDFBox может это сделать (java.dzone.com/articles/…), но очень ограниченным образом.