Конвертируйте несколько PDF-файлов в TXT

Я хотел бы преобразовать сотни файлов PDF (различного форматирования и размера) в текстовый формат и изо всех сил пытался найти для этого вариант непрофессионала.

Как лучше всего это сделать? Я пробовал готовое программное обеспечение (PDF2Text Pilot), но оно просто ... не работало.

Я также следовал руководству, чтобы сделать это в python, но, похоже, не мог заставить python открываться из правильного каталога, поскольку я не слишком разбираюсь в этой области.

Какой метод вы бы порекомендовали?

Спасибо!

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
2
0
117
1

Ответы 1

Почему бы не использовать команду оболочки pdftotext из утилит poppler, если вы не собираетесь не использовать python. Это потрясающе хорошо работает с цифровыми PDF-файлами. Затем вы могли бы запустить

find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext

в вашей оболочке, чтобы получить все текстовые версии PDF-файлов. Это будет довольно быстро. При необходимости вы можете запустить эту команду из python с помощью subprocess.

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)

Я думаю, что это будет быстрее и проще, чем использование собственного подхода на Python, но при необходимости я могу предоставить его.

Звучит интересно! Я большой новичок в Python, это просто установить и т. д.? @modesitt

Lewis 10.08.2018 17:49

да - вполне. какая у вас операционная система @Lewis?

modesitt 10.08.2018 17:49

Другие вопросы по теме