Парсинг pdf с русским текстом и таблицами-ру возвращает ???? в результате. (на окнах)

Я использую 32-разрядную версию Windows 7. Когда я разбираю русский текст PDF, я получаю файл результатов с ??? вместо русских иероглифов. Разработчик решает эту проблему с помощью этого исправления.

I got ? character with result on Windows. How can I avoid it? If the encoding of PDF is UTF-8, you should set chcp 65001 on your terminal before launching a Python process.

chcp 65001

Я изменил это в Windows cmd, но безрезультатно.

мой код

import tabula


tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf", r"C:\Code\Active\kartoteka\misc\output.csv", output_format="csv",pages = "all",java_options="-Dfile.encoding=utl-8")

Журнал ошибок:

?? 10, 2018 11:15:18 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Can't read the embedded font Times-Roman
??? 10, 2018 11:15:18 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Using font Times New Roman instead
??? 10, 2018 11:15:19 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Can't read the embedded font Times-Roman
??? 10, 2018 11:15:19 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Using font Times New Roman instead

В моем итоговом файле по-прежнему отображаются все русские символы в ????? Как решить эту проблему?

Вот так выглядит оригинальный PDF. enter image description here

Это правильный java_options или опечатка? Это должен быть java_options="-Dfile.encoding=UTF8". см. также: stackoverflow.com/questions/6031877/…

chezou 25.08.2018 15:16
1
1
426
1

Ответы 1

Nota bene: мой комментарий касается способности правильно извлекать текст из PDF в целом по сравнению с tablula-py в частности, но, надеюсь, это поможет вам определить, связана ли проблема с вашим PDF-файлом или с вашим программным обеспечением PDF.

Трудно комментировать просматриваемый файл, не видя его, но хорошей отправной точкой является попробовать Acrobat, и, скопировав текст и вставив его в текстовый редактор, или выполнив поиск текстового содержимого, вы узнаете, можно ли это сделать. извлечены правильно или нет.

Если он не может быть извлечен должным образом, велика вероятность, что в шрифте отсутствует запись ToUnicode (дополнительную информацию см. В разделе 9.10.1 спецификации ISO PDF 32000-1: 2008).

Если Acrobat может правильно извлечь текст, возможно, возникла проблема с программным обеспечением PDF, которое вы используете.

Другие вопросы по теме