Pandas: read_csv () несколько файлов по частям

У меня есть каталог с множеством больших CSV-файлов, каждый из которых отформатирован одинаково. Каждый файл слишком велик для импорта в память.

Моя проблема в том, что pandas.read_csv() позволяет мне читать только один файл за раз, я хочу, чтобы pandas.read_csv() обрабатывал все файлы в каталоге как один большой файл (это означает, что я хочу, чтобы панды обрабатывали их так, как если бы файлы были соединены непрерывно. конец). Я делаю это так, что могу без проблем читать файлы по частям. Как я могу сделать это наиболее эффективно? Производительность очень важна, поскольку файлы очень большие.

Обновлено: я хочу, чтобы чтение рассматривалось как один файл, потому что каждый фрагмент должен иметь одинаковый размер, а также делиться на общий размер всех файлов (а не на размер отдельного файла)

chunksize - это параметр pandas.read_csv (). Просмотрите документацию: pandas.pydata.org/pandas-docs/stable/generated/…

Bikash Ranjan Bhoi 14.08.2018 13:39

Почему вы хотите рассматривать их как один большой файл, я бы предпочел использовать pd.read_csv(filename, chunksize=some size) для их обработки.

quest 14.08.2018 13:39

Потому что у меня должен быть каждый кусок одинакового размера, а также делимый на общий размер всех файлов (а не на размер отдельного файла)

Mikkel Rev 14.08.2018 16:31

Я думаю, что это - это то, что вы ищете (создание файлового объекта из ваших файлов csv для использования с read_csv).

Stef 14.08.2018 18:27
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
4
132
0

Другие вопросы по теме