





я считаю, что открытый офис может как открывать файлы .html, так и создавать файлы .doc
Для этого есть много сторонних инструментов. Я не знаю, станет ли это проще.
Примеры:
Также обнаружен vbscribt, но я предполагаю, что для этого требуется, чтобы у вас было установлено слово.
Если у вас есть только простые HTML-страницы, как вы сказали, их можно открыть в Word.
В противном случае есть библиотеки, которые могут это сделать, но у меня нет опыта работы с ними.
Моя последняя идея заключается в том, что если вы используете ASP.NET, попробуйте добавить application/msword в заголовок, и вы можете сохранить его как документ Word (это не будет настоящий документ Word, только HTML, переименованный в doc, чтобы иметь возможность открыто).
Этот метод относится к отправке html по электронной почте, но также применим и к ms word: 4guysfromrolla.com/articles/122006-1.aspx
Я предполагаю, что с помощью тега «C#» вы хотите добиться этого программно.
Попробуйте Aspose.Words для .NET.
К сожалению, Aspose.Words имеет процесс ImportHTML, но не поддерживает CSS. Таким образом, вам придется вручную воссоздать все форматирование в итоговом документе. Это включает форматирование таблиц, списки и стили текста.
Хотя можно создать файл Microsoft Word с расширением ".doc", вероятно, было бы проще и удобнее создать файл с расширением .rtf.
Если это просто HTML, все, что вам нужно сделать, это изменить расширение на .doc, и word откроет его, как если бы это текстовый документ. Однако, если есть изображения для включения или javascript для запуска, это может стать немного сложнее.
Есть инструмент под названием JODConverter, который подключается к открытому офису, чтобы открыть конвертеры формата файлов, есть версии, доступные в виде веб-приложения (находится в tomcat), которое вы публикуете, и инструмент командной строки. Я использовал html и успешно конвертировал его в .doc и pdf, это в довольно большом проекте, еще не запущен, но я думаю, что собираюсь его использовать. http://sourceforge.net/projects/jodconverter/
Я не стал его использовать, оказалось, что утечка памяти слишком сильно для производственного использования.
Существует проект с открытым исходным кодом под названием HTMLtoWord, который позволяет пользователям вставлять фрагменты правильно сформированного HTML (XHTML) в документ Word в виде форматированного текста.
Если вы работаете на Java, вы можете преобразовать HTML в реальное содержимое docx с помощью кода, который я опубликовал в docx4j 2.8.0. Я говорю «настоящий», потому что альтернативой является создание HTML altChunk, который полагается на Word для выполнения фактического преобразования (при первом открытии документа).
Смотрите различные образцы с префиксом ConvertInXHTML. Процесс импорта ожидает хорошо сформированного XML, поэтому вам, возможно, придется сначала привести его в порядок.
Вы можете открывать HTML-файлы с помощью Libreoffice Writer. Затем вы можете экспортировать в формате PDF из меню «Файл». Также браузеры могут экспортировать html как файл PDF.
это не отвечает на вопрос
используйте эту ссылку для экспорта в Word, но здесь изображение не работает:
Попробуйте какой-нибудь онлайн-инструмент, например Замзар