Possible Duplicate:
Reading/Writing MS Word files in Python
Я знаю, что есть некоторые библиотеки для редактирования файлов Excel, но есть ли что-нибудь для редактирования файлов msword 97/2000/2003 .doc в python? В идеале я хотел бы внести небольшие изменения в форматирование текста на основе его содержимого. Действительно тривиальный пример - выделение каждого слова, начинающегося с заглавной буквы.






Библиотека PyWin32 позволяет вам получать доступ к COM-объектам из Python, включая все различные API-интерфейсы Office COM. Я не буду утверждать, что это легкий, но он работает.
Новые офисные файлы можно было бы обрабатывать с помощью моно, но я никогда не пробовал этого.
Если важна независимость от платформы, я бы рекомендовал использовать OpenOffice API через BASIC или Python. OpenOffice также может работать в автономном режиме без графического интерфейса, поэтому вы можете автоматизировать его для пакетных заданий. Эти ссылки могут быть полезны:
Это определенно сложнее, чем импорт модуля и замена строки, но OpenOffice, вероятно, лучший бесплатный читатель .doc, к которому вы можете подключиться.
Почему бы не взглянуть на использование python-uno для загрузки документа в OpenOffice и управления им с помощью интерфейса UNO. На сайте, на который я только что указал, есть пример кода, с которого можно начать.
Было бы неплохо сказать, как получить доступ к XScriptContext, поскольку он не поставляется с Python.
По это сообщение SO я узнал о jXLS, который использует POI Apache. POI имеет множество подкомпонентов, включая HWPF:
HWPF is our port of the Microsoft Word 97 file format to pure Java. It supports read, and limited write capabilities. Please see the HWPF project page for more information. This component is in the early stages of development. It can already read and write simple files.
Поскольку это библиотека Java, ее можно написать с помощью Jython. Я еще не знаю, насколько хороши возможности письма, но, пожалуйста, оставьте комментарий, если это поможет.
Есть идеи, как это сделать в Linux?