Мои пользователи будут выбирать PDF-документ на своем компьютере, загружать его на свой веб-сайт, где я конвертирую его в HTML-документ для отображения на веб-сайте. После преобразования документ будет сохранен в базе данных.
Как лучше всего конвертировать PDF в HTML?
Мне вручили требование, согласно которому пользователь должен создавать «новостную» статью в формате pdf, а затем загружать ее на сервер, где она будет преобразована в HTML и отображена на веб-сайте.
Вы имеете в виду, что хотите иметь возможность хранить PDF-файлы в базе данных, загруженные пользователем?
Я не хочу этого делать, мой менеджер хочет знать, возможно ли это.
Это возможно, но вы говорите о большом количестве времени или денег. Ниже я предложил лучший способ, который вы можете предложить в качестве альтернативы тысячам долларов на лицензионные сборы и время кодирования.
Для меня это достаточно хороший ответ, чтобы сказать им. Они могут решить, действительно ли они хотят тратить деньги. Это пахнет чепухой?
Да, но, по крайней мере, вы поступаете правильно, ставя под сомнение это и ища альтернативные решения. Многие WTF удалось предотвратить с помощью критического мышления.





Я не думаю, что преобразование PDF в строку HTML обязательно является лучшей идеей, особенно если вы хотите экспортировать его обратно как PDF. Файлы PDF часто содержат двоичные элементы, такие как изображения, поэтому вам может быть лучше преобразовать их в ASCII с помощью кодировки, такой как Base64. Таким образом, у вас будет строка ASCII, которую вы можете сохранить в текстовое поле в БД, а затем преобразовать обратно. Не могли бы вы подробнее остановиться на главном требовании?
Я бы порекомендовал не делать этого, ЕСЛИ ВОЗМОЖНО (но мы все знаем, что такое менеджеры), так что ...
Я бы порекомендовал вам держаться подальше от преобразования PDF в / из HTML (потому что, если вы не найдете коммерческое решение, это будет почти невозможно), а вместо этого сделайте, как уже упоминалось, и сохраните его как закодированную строку Base64 или BLOB. или какой-либо другой двоичный формат в базе данных, а затем отобразить его пользователю с помощью какого-либо плагина просмотра PDF для браузера.
Все, что потребовалось, - это простой поиск в Google по запросу «PDF в HTML»: http://www.gnostice.com/pdf2manyOverview_x.asp. Я уверен, что есть и другие.
Поэтому, хотя это «возможно», вы можете объяснить своему менеджеру, что это не лучшее решение для управления контентом.
Почему бы не использовать iTextSharp для чтения содержимого PDF? Затем вы можете сохранить как двоичный PDF-файл, так и текстовое содержимое в базе данных. Затем вы можете позволить пользователям искать контент и загружать PDF-файл.
Любая программа для создания документов, которая может сохранять документы в формате PDF, может сохранять их в формате HTML. Я предполагаю, что проблема в том, что ваши пользователи будут создавать расширенные документы (множество встроенных изображений), что приведет к созданию нескольких файлов, а ваши требования проистекают из желания сделать загрузку этих документов максимально простой для пользователя.
Существует множество пакетов преобразования, которые, вероятно, могут сделать это за вас, однако, когда вы говорите о насыщенном контенте, вы говорите о тексте и изображениях. Эти изображения нужно где-то хранить и каким-то образом обслуживать, и какой бы метод преобразования вы ни использовали, вам потребуется изучить все источники изображений, чтобы убедиться, что они указывают на допустимые местоположения на вашем сервере.
Я хотел бы предложить альтернативный способ сделать это, который вы можете использовать в своей команде: реализовать один из многих API-интерфейсов блога для публикации контента. Существуют бесплатные и коммерческие программные пакеты, которые используют эти API для публикации контента непосредственно на веб-сайте, например Windows Live Writer и Microsoft Word. Ваши пользователи могут просто создавать свой контент и загружать его прямо на ваш веб-сайт без необходимости сначала публиковать его в формате PDF, а затем загружать. Таким образом, процесс становится намного более плавным для ваших пользователей, и вы получаете сообщения в форме, которая не требует от вас тратить тысячи долларов на разработку или покупку кода конверсии.
Два наиболее распространенных API - это MetaWeblog API и API подвижного типа. И то, и другое очень просто и легко реализовать. Я думаю, что этот способ был бы НАМНОГО лучшей альтернативой, чем то, о чем вы думаете.
Вам следует заглянуть в DynamicPDF. У них есть конвертер (в настоящее время бета), который служит именно для этой цели. Мы с большим успехом использовали их продукты (особенно для выгрузки отчетов служб Reporting Services непосредственно в PDF).
Ссылка: http://www.dynamicpdf.com/
Могу я спросить, черт возьми, зачем тебе это нужно?