Конвертируйте несколько pdf-файлов в txt

Я хотел бы преобразовать сотни файлов PDF (различного форматирования и размера) в текстовый формат и изо всех сил пытался найти для этого вариант непрофессионала.

Как лучше всего это сделать? Я пробовал готовое программное обеспечение (PDF2Text Pilot), но оно просто ... не работало.

Я также следовал руководству, чтобы сделать это в python, но, похоже, не мог заставить python открываться из правильного каталога, поскольку я не слишком разбираюсь в этой области.

Какой метод вы бы порекомендовали?

Спасибо!

2
0
117
1

Ответы 1

Почему бы не использовать команду оболочки pdftotext из утилит poppler, если вы не собираетесь не использовать python. Это потрясающе хорошо работает с цифровыми PDF-файлами. Затем вы могли бы запустить

find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext

в вашей оболочке, чтобы получить все текстовые версии PDF-файлов. Это будет довольно быстро. При необходимости вы можете запустить эту команду из python с помощью subprocess.

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)

Я думаю, что это будет быстрее и проще, чем использование собственного подхода на Python, но при необходимости я могу предоставить его.

Звучит интересно! Я большой новичок в Python, это просто установить и т. д.? @modesitt

Lewis 10.08.2018 17:49

да - вполне. какая у вас операционная система @Lewis?

modesitt 10.08.2018 17:49

Другие вопросы по теме