У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит данные типа WrappedArray[WrappedArray[String]].
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE| REC_DATE| FILE_NAME| TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
| ZJ8281U6| GIMS01| BE6| SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
Я протестировал запись в формате ORC и Parquet, orc намного медленнее, занимает 3 минуты, а Parquet занимает всего 3 секунды.
df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")
Во многих статьях утверждается, что орк имеет лучшую производительность, чем паркет, но я понятия не имею, что на написание уходит так много времени. Кто-нибудь из экспертов знает, что пошло не так? Или какой-нибудь совет для меня?





какой дистрибутив хаупа? Это клаудера?