У меня есть каталог с множеством больших CSV-файлов, каждый из которых отформатирован одинаково. Каждый файл слишком велик для импорта в память.
Моя проблема в том, что pandas.read_csv() позволяет мне читать только один файл за раз, я хочу, чтобы pandas.read_csv() обрабатывал все файлы в каталоге как один большой файл (это означает, что я хочу, чтобы панды обрабатывали их так, как если бы файлы были соединены непрерывно. конец). Я делаю это так, что могу без проблем читать файлы по частям. Как я могу сделать это наиболее эффективно? Производительность очень важна, поскольку файлы очень большие.
Обновлено: я хочу, чтобы чтение рассматривалось как один файл, потому что каждый фрагмент должен иметь одинаковый размер, а также делиться на общий размер всех файлов (а не на размер отдельного файла)
Почему вы хотите рассматривать их как один большой файл, я бы предпочел использовать pd.read_csv(filename, chunksize=some size) для их обработки.
Потому что у меня должен быть каждый кусок одинакового размера, а также делимый на общий размер всех файлов (а не на размер отдельного файла)
Я думаю, что это - это то, что вы ищете (создание файлового объекта из ваших файлов csv для использования с read_csv).






chunksize - это параметр pandas.read_csv (). Просмотрите документацию: pandas.pydata.org/pandas-docs/stable/generated/…