поэтому у меня есть огромная коллекция файлов PDF, из которых мне нужно извлечь текст. Файлы зашифрованы, но я знаю пароль к ним. Ищу способ автоматизировать процесс извлечения текста. Я могу вручную открыть файл в Acrobat professional, снять защиту, введя пароль, а затем сохранить как файл .txt. Но нет способа автоматизировать это с помощью пакетной обработки 600 файлов. Я ищу какой-нибудь инструмент, чтобы помочь с этим. Я хорошо разбираюсь в Perl, поэтому я пробовал различные модули обработки PDF из CPAN, но они не могут читать зашифрованные документы. У кого-нибудь есть решение для этого?


Если вы не можете найти какой-либо достойный чисто программный способ сделать это, альтернативой является AutoIt.
Это «бесплатный язык сценариев, подобный BASIC, разработанный для автоматизации графического интерфейса Windows», который может делать все эти указания и щелчки мышью за вас, пока вы идете выпить чашку кофе.
pdftotext должен уметь это делать. Он поставляется с библиотекой poppler, а также может быть найден с помощью xpdf (poppler пришел из xpdf).
Я согласен с Desstan, AutoIt или AutoHotkey можно использовать для автоматизации любой задачи с графическим интерфейсом, которую нельзя автоматизировать другими способами. Хотя это может быть медленным и может остановиться в неожиданной ситуации (плюс есть кривая обучения, но, по крайней мере, форум AutoHotkey очень полезен, хотя для этого нужен Acrobat Professional, чтобы написать сценарий ...).
И действительно, Xpdf кажется интересным инструментом, включая экстрактор текста и поддерживающий расшифровка.
Взгляните на pdftk. Он основан на консоли и обрабатывает PDF-файлы, защищенные паролем.
CAM :: PDF - это библиотека Perl с открытым исходным кодом, которая может шифровать и расшифровывать PDF-файлы. В настоящее время он может выполнять только 40-битное шифрование с одинаковыми паролями владельца и пользователя, но только сегодня (по совпадению) пользователь отправил патч, разрешающий 128-битное шифрование и дешифрование. Я надеюсь выпустить новую версию на следующей неделе с этим улучшением.
Однако CAM :: PDF не очень хорошо извлекает текст.
попробуйте pdftk:
pdftk secure.pdf input_pw foopass output unsecured.pdf
Вы можете попробовать воспользоваться специальной функцией из утилиты Взлом паролей PDF
Это опция «Расшифровать» - вы можете ввести пароль и сделать незащищенную копию PDF-файла.