Как разбирать текстовые документы с помощью Ruby?

Кто-нибудь знает библиотеку, которую я могу использовать в OS X / Linux для анализа файлов Word и вывода содержимого в виде HTML?

Я смотрел win32ole, но, насколько я понимаю, он только для Windows, хотя я могу ошибаться.

Какие-либо предложения?

Пошаговое руководство по созданию собственного Slackbot: От установки до развертывания
Пошаговое руководство по созданию собственного Slackbot: От установки до развертывания
Шаг 1: Создание приложения Slack Чтобы создать Slackbot, вам необходимо создать приложение Slack. Войдите в свою учетную запись Slack и перейдите на...
14
0
5 107
1

Ответы 1

Формат документа Word (без учета docx на данный момент) ужасен и постоянно менялся. ИМХО, поэтому существует так мало (читай: ноль) библиотек Ruby для их анализа.

Я рекомендую использовать JRuby и некоторые из известных библиотек Java для чтения формата документации. Google должен вам помочь: http://schmidt.devlib.org/java/libraries-word.html.

Существует проект Java для чтения форматов файлов MIcrosoft, POI (http://poi.apache.org/), и у них есть привязки Ruby (http://poi.apache.org/poi-ruby.html), но я не уверен, насколько они актуальны. На их сайте говорится, что привязки Ruby предназначены для 1.8.2 ...

Другие вопросы по теме