Я использовал Camelot и tabula для разбора pdf-файла с кириллическими символами внутри. Но в выходном CSV-файле я получил перепутанный шрифт без признаков русского языка.
Что может помочь мне разобрать таблицу pdf на неанглийском языке?
import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "1-end", encoding='utf-8')
Выход: 00550529-1295-06 -РўРљР 5.СРћ1 0520529-12955--0066--РўРўРљРљР 55--ТрР§23 00552299--11229955--0066--РўРўР љРљР 55--Г"Р" Р§Р§45
Пожалуйста, выложите пример PDF
@mutantkeyboard, как показал этот парень, вообще не работает
@StefanoFiorucci-anakin87 Я уже получил ответ. Это позволяет анализировать страницу и преобразовывать ее в pandas DataFrame, что мне подходит.
Так что, в принципе, Camelot неплохо справляется с кириллицей.
pip install camelot-py[cv]
import pandas as pd
import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "4, 5", encoding='utf-8')
df_p4 = tables[0].df
Вывод будет довольно сырым, нуждается в очистке, но символы не будут сломаны, что, как я полагаю, является хорошим результатом.
Отвечает ли это на ваш вопрос? Как получить данные из pdf на кириллице?