Преобразование фрейма данных spark в фрейм данных pandas, показывающее ошибку

Дорогие,

Я получаю данные из таблицы Hive, чтобы зажечь фрейм данных, а затем конвертирую в pandas.

sp_df=sqlContext.sql(" \
select * from table1 "\)

sp_df.count()
# 56113241 -- rows

pd_df = sp_df.toPandas()

показывает ошибку после очень долгой работы с ошибкой ниже .:

org.apache.spark.SparkException: Job 5 cancelled because SparkContext was shut down

не могли бы вы помочь мне, как мы можем решить такую ​​ошибку. 56 миллионов записей невозможно преобразовать в панды.

Вы пробовали с меньшим объемом данных? Попробуйте с 5 записями, добавьте свои данные в свой пост и скопируйте весь свой результат и все, что хотите.

B. Hel 26.10.2018 07:24

Как @ B.Hel предложил попробовать с небольшим объемом данных. Ошибка, возможно, из-за нехватки памяти

Sreeram TP 26.10.2018 07:25

с меньшим объемом данных, например 1000 или 2000 записей, он работает нормально. это конфигурация, которую я использую в блокноте jupyter: conf = {'spark.sql.execution.arrow.enabled': 'true', 'spark.executor.‌ instance': 5, 'spark.executor.memory' : '8g', 'spark.executor.cores': '5', 'spark.driver.maxResultSize': '8g'‌}

Sunny_J 26.10.2018 09:02
0
3
184
0

Другие вопросы по теме