Pandas: read_csv () несколько файлов по частям

У меня есть каталог с множеством больших CSV-файлов, каждый из которых отформатирован одинаково. Каждый файл слишком велик для импорта в память.

Моя проблема в том, что pandas.read_csv() позволяет мне читать только один файл за раз, я хочу, чтобы pandas.read_csv() обрабатывал все файлы в каталоге как один большой файл (это означает, что я хочу, чтобы панды обрабатывали их так, как если бы файлы были соединены непрерывно. конец). Я делаю это так, что могу без проблем читать файлы по частям. Как я могу сделать это наиболее эффективно? Производительность очень важна, поскольку файлы очень большие.

Обновлено: я хочу, чтобы чтение рассматривалось как один файл, потому что каждый фрагмент должен иметь одинаковый размер, а также делиться на общий размер всех файлов (а не на размер отдельного файла)

chunksize - это параметр pandas.read_csv (). Просмотрите документацию: pandas.pydata.org/pandas-docs/stable/generated/…

— 14.08.2018 13:39

Почему вы хотите рассматривать их как один большой файл, я бы предпочел использовать pd.read_csv(filename, chunksize=some size) для их обработки.

— 14.08.2018 13:39

Потому что у меня должен быть каждый кусок одинакового размера, а также делимый на общий размер всех файлов (а не на размер отдельного файла)

— 14.08.2018 16:31

Я думаю, что это - это то, что вы ищете (создание файлового объекта из ваших файлов csv для использования с read_csv).

— 14.08.2018 18:27

python pandas cython

14.08.2018 13:35

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

132

Другие вопросы по теме

Как заменить диапазон значений столбца Dataframe на NaN с помощью Numpy?

Создание фиктивных столбцов с реальными значениями

Заполнение нулевых значений

Как объединить столбцы из фрейма данных в другой фрейм данных

Преобразование DF во вложенный список

Почему pandas read_csv имеет ошибку юникода при указании кодировки utf-8?

Сравнение столбцов в фрейме данных для желаемого результата

Слияние панд дает два результата с одинаковым кодом и входными данными

Как преобразовать структуру данных, полученную после выполнения операции groupby с фреймом данных pandas, в фрейм данных?

Применение интерполяции к DataFrame на основе другого DataFrame

Pandas: read_csv () несколько файлов по частям

Другие вопросы по теме

Похожие вопросы