У меня есть список из 5 строк по 5 столбцов.
Я пытаюсь преобразовать этот список в фрейм данных.
Когда я пытаюсь это сделать, он захватывает только первую строку.
Это не удалось, потому что я установил его на 5,5:
df2 = pd.DataFrame(np.array(pdf_read).reshape(5,5),columns=list("abcde"))
Когда я переключил его на это:
df2 = pd.DataFrame(np.array(pdf_read).reshape(1,5),columns=list("abcde"))
Захватил только первый ряд.
Обновлено: добавлен контекст
Я использую модуль tabula
в python для чтения файла PDF.
Результаты файла PDF сохраняются в переменной pdf_read
.
Когда я делаю len(pdf_read)
, он имеет длину 1, но когда я печатаю
print(pdf_read)
написано, что это 5 строк x 5 столбцов, что очень странно.
Редактировать № 2: типы данных
Я выполнил следующее:
print(type(pdf_read))
print(type(pdf_read[0]))
Я получил <class 'list'>
и <class 'pandas.core.frame.DataFrame'>
соответственно.
Кажется, у меня есть Dataframe внутри списка.
Я запустил этот код:
df = pd.DataFrame(
pdf_read[0],columns=["column_a","column_b","column_c","column_d","column_e"]
)
Это просто возвращает фрейм данных 5,5, но все значения в каждом столбце являются NaN.
Достигнут некоторый прогресс, но нужно выяснить, почему значения не заполнены сейчас.
Добавил еще немного контекста, данные конфиденциальны, поэтому я стараюсь не публиковать их.
Обновлено: после некоторого исследования результатом pdf_read
является список DataFrames.
Итак, для первого DataFrame
:
df = pdf_read[0]
Добавил еще немного контекста, я стараюсь не публиковать фактические данные, потому что они конфиденциальны.
@LunchBox что такое print (np.array(pdf_read).shape)
?
(1,5) это то, что возвращается
@LunchBox - А что если использовать print (type(pdf_read))
и print (type(pdf_read[0]))
?
<class 'list'> и <class 'pandas.core.frame.DataFrame'> соответственно
пожалуйста, поделитесь своим списком с ожидаемым результатом