Удаление пароля для нескольких файлов PDF

поэтому у меня есть огромная коллекция файлов PDF, из которых мне нужно извлечь текст. Файлы зашифрованы, но я знаю пароль к ним. Ищу способ автоматизировать процесс извлечения текста. Я могу вручную открыть файл в Acrobat professional, снять защиту, введя пароль, а затем сохранить как файл .txt. Но нет способа автоматизировать это с помощью пакетной обработки 600 файлов. Я ищу какой-нибудь инструмент, чтобы помочь с этим. Я хорошо разбираюсь в Perl, поэтому я пробовал различные модули обработки PDF из CPAN, но они не могут читать зашифрованные документы. У кого-нибудь есть решение для этого?

Как конвертировать HTML в PDF с помощью jsPDF
Как конвертировать HTML в PDF с помощью jsPDF
В этой статье мы рассмотрим, как конвертировать HTML в PDF с помощью jsPDF. Здесь мы узнаем, как конвертировать HTML в PDF с помощью javascript.
Включение UTF-8 в jsPDF с помощью Angular
Включение UTF-8 в jsPDF с помощью Angular
Привет, разработчики, я предполагаю, что вы уже знаете, как экспортировать pdf через jsPDF. Если ответ отрицательный, то вы можете ознакомиться с моей...
0
0
2 638
7

Ответы 7

Если вы не можете найти какой-либо достойный чисто программный способ сделать это, альтернативой является AutoIt.

Это «бесплатный язык сценариев, подобный BASIC, разработанный для автоматизации графического интерфейса Windows», который может делать все эти указания и щелчки мышью за вас, пока вы идете выпить чашку кофе.

pdftotext должен уметь это делать. Он поставляется с библиотекой poppler, а также может быть найден с помощью xpdf (poppler пришел из xpdf).

Я согласен с Desstan, AutoIt или AutoHotkey можно использовать для автоматизации любой задачи с графическим интерфейсом, которую нельзя автоматизировать другими способами. Хотя это может быть медленным и может остановиться в неожиданной ситуации (плюс есть кривая обучения, но, по крайней мере, форум AutoHotkey очень полезен, хотя для этого нужен Acrobat Professional, чтобы написать сценарий ...).

И действительно, Xpdf кажется интересным инструментом, включая экстрактор текста и поддерживающий расшифровка.

Взгляните на pdftk. Он основан на консоли и обрабатывает PDF-файлы, защищенные паролем.

CAM :: PDF - это библиотека Perl с открытым исходным кодом, которая может шифровать и расшифровывать PDF-файлы. В настоящее время он может выполнять только 40-битное шифрование с одинаковыми паролями владельца и пользователя, но только сегодня (по совпадению) пользователь отправил патч, разрешающий 128-битное шифрование и дешифрование. Я надеюсь выпустить новую версию на следующей неделе с этим улучшением.

Однако CAM :: PDF не очень хорошо извлекает текст.

попробуйте pdftk:

pdftk secure.pdf input_pw foopass output unsecured.pdf

Вы можете попробовать воспользоваться специальной функцией из утилиты Взлом паролей PDF

Это опция «Расшифровать» - вы можете ввести пароль и сделать незащищенную копию PDF-файла.

Другие вопросы по теме