Как лучше всего преобразовать PDF-файл в HTML в ASP.NET?

Мои пользователи будут выбирать PDF-документ на своем компьютере, загружать его на свой веб-сайт, где я конвертирую его в HTML-документ для отображения на веб-сайте. После преобразования документ будет сохранен в базе данных.

Как лучше всего конвертировать PDF в HTML?

Мне вручили требование, согласно которому пользователь должен создавать «новостную» статью в формате pdf, а затем загружать ее на сервер, где она будет преобразована в HTML и отображена на веб-сайте.

Могу я спросить, черт возьми, зачем тебе это нужно?

mwjackson 10.11.2008 16:57

Вы имеете в виду, что хотите иметь возможность хранить PDF-файлы в базе данных, загруженные пользователем?

user1228 10.11.2008 16:59

Я не хочу этого делать, мой менеджер хочет знать, возможно ли это.

David Basarab 10.11.2008 17:09

Это возможно, но вы говорите о большом количестве времени или денег. Ниже я предложил лучший способ, который вы можете предложить в качестве альтернативы тысячам долларов на лицензионные сборы и время кодирования.

user1228 10.11.2008 17:55

Для меня это достаточно хороший ответ, чтобы сказать им. Они могут решить, действительно ли они хотят тратить деньги. Это пахнет чепухой?

David Basarab 10.11.2008 19:09

Да, но, по крайней мере, вы поступаете правильно, ставя под сомнение это и ища альтернативные решения. Многие WTF удалось предотвратить с помощью критического мышления.

Turnkey 10.11.2008 23:25
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
6
5 046
6
Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Я не думаю, что преобразование PDF в строку HTML обязательно является лучшей идеей, особенно если вы хотите экспортировать его обратно как PDF. Файлы PDF часто содержат двоичные элементы, такие как изображения, поэтому вам может быть лучше преобразовать их в ASCII с помощью кодировки, такой как Base64. Таким образом, у вас будет строка ASCII, которую вы можете сохранить в текстовое поле в БД, а затем преобразовать обратно. Не могли бы вы подробнее остановиться на главном требовании?

Я бы порекомендовал не делать этого, ЕСЛИ ВОЗМОЖНО (но мы все знаем, что такое менеджеры), так что ...

Я бы порекомендовал вам держаться подальше от преобразования PDF в / из HTML (потому что, если вы не найдете коммерческое решение, это будет почти невозможно), а вместо этого сделайте, как уже упоминалось, и сохраните его как закодированную строку Base64 или BLOB. или какой-либо другой двоичный формат в базе данных, а затем отобразить его пользователю с помощью какого-либо плагина просмотра PDF для браузера.

Все, что потребовалось, - это простой поиск в Google по запросу «PDF в HTML»: http://www.gnostice.com/pdf2manyOverview_x.asp. Я уверен, что есть и другие.

Поэтому, хотя это «возможно», вы можете объяснить своему менеджеру, что это не лучшее решение для управления контентом.

Почему бы не использовать iTextSharp для чтения содержимого PDF? Затем вы можете сохранить как двоичный PDF-файл, так и текстовое содержимое в базе данных. Затем вы можете позволить пользователям искать контент и загружать PDF-файл.

Ответ принят как подходящий

Любая программа для создания документов, которая может сохранять документы в формате PDF, может сохранять их в формате HTML. Я предполагаю, что проблема в том, что ваши пользователи будут создавать расширенные документы (множество встроенных изображений), что приведет к созданию нескольких файлов, а ваши требования проистекают из желания сделать загрузку этих документов максимально простой для пользователя.

Существует множество пакетов преобразования, которые, вероятно, могут сделать это за вас, однако, когда вы говорите о насыщенном контенте, вы говорите о тексте и изображениях. Эти изображения нужно где-то хранить и каким-то образом обслуживать, и какой бы метод преобразования вы ни использовали, вам потребуется изучить все источники изображений, чтобы убедиться, что они указывают на допустимые местоположения на вашем сервере.

Я хотел бы предложить альтернативный способ сделать это, который вы можете использовать в своей команде: реализовать один из многих API-интерфейсов блога для публикации контента. Существуют бесплатные и коммерческие программные пакеты, которые используют эти API для публикации контента непосредственно на веб-сайте, например Windows Live Writer и Microsoft Word. Ваши пользователи могут просто создавать свой контент и загружать его прямо на ваш веб-сайт без необходимости сначала публиковать его в формате PDF, а затем загружать. Таким образом, процесс становится намного более плавным для ваших пользователей, и вы получаете сообщения в форме, которая не требует от вас тратить тысячи долларов на разработку или покупку кода конверсии.

Два наиболее распространенных API - это MetaWeblog API и API подвижного типа. И то, и другое очень просто и легко реализовать. Я думаю, что этот способ был бы НАМНОГО лучшей альтернативой, чем то, о чем вы думаете.

Вам следует заглянуть в DynamicPDF. У них есть конвертер (в настоящее время бета), который служит именно для этой цели. Мы с большим успехом использовали их продукты (особенно для выгрузки отчетов служб Reporting Services непосредственно в PDF).

Ссылка: http://www.dynamicpdf.com/

Другие вопросы по теме