Это должно работать:
raw_data.drop('some_great_column', axis=1).compute(
)
Но столбец не уронили. В пандах я использую:
raw_data.drop(['some_great_column'], axis=1, inplace=True)
Но inplace не существует в Dask. Любые идеи?
Вы можете разделить на две операции:
# dask operation
raw_data = raw_data.drop('some_great_column', axis=1)
# conversion to pandas
df = raw_data.compute()
Затем экспортируйте фрейм данных Pandas в файл CSV:
df.to_csv(r'out.csv', index=False)
Понятно, но это произойдет в любом случае, когда вы используете compute
, даже в вашем исходном коде. В этом случае вы можете попробовать фильтровать и экспортировать по группам.
Я предполагаю, что вы хотите хранить «сырые данные» в Dask DF. В этом случае поможет следующее:
new_raw_df = raw_data.drop('some_great_column', axis=1).copy()
где type(new_raw_df)
- это dask.dataframe.core.DataFrame
, и вы можете удалить исходный DF.
Я предполагаю, что преобразование в pandas потенциально не удастся из-за проблем с памятью ... причина, по которой я начал использовать Dask ...