Я хотел бы преобразовать сотни файлов PDF (различного форматирования и размера) в текстовый формат и изо всех сил пытался найти для этого вариант непрофессионала.
Как лучше всего это сделать? Я пробовал готовое программное обеспечение (PDF2Text Pilot), но оно просто ... не работало.
Я также следовал руководству, чтобы сделать это в python, но, похоже, не мог заставить python открываться из правильного каталога, поскольку я не слишком разбираюсь в этой области.
Какой метод вы бы порекомендовали?
Спасибо!
Почему бы не использовать команду оболочки pdftotext
из утилит poppler
, если вы не собираетесь не использовать python. Это потрясающе хорошо работает с цифровыми PDF-файлами. Затем вы могли бы запустить
find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext
в вашей оболочке, чтобы получить все текстовые версии PDF-файлов. Это будет довольно быстро. При необходимости вы можете запустить эту команду из python с помощью subprocess
.
import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)
Я думаю, что это будет быстрее и проще, чем использование собственного подхода на Python, но при необходимости я могу предоставить его.
да - вполне. какая у вас операционная система @Lewis?
Звучит интересно! Я большой новичок в Python, это просто установить и т. д.? @modesitt