ORC пишет намного медленнее, чем Parquet в Spark SQL

У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит данные типа WrappedArray[WrappedArray[String]].

+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE|           REC_DATE|           FILE_NAME|           TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|  ZJ8281U6| GIMS01|   BE6|      SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+

Я протестировал запись в формате ORC и Parquet, orc намного медленнее, занимает 3 минуты, а Parquet занимает всего 3 секунды.

df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")

Во многих статьях утверждается, что орк имеет лучшую производительность, чем паркет, но я понятия не имею, что на написание уходит так много времени. Кто-нибудь из экспертов знает, что пошло не так? Или какой-нибудь совет для меня?

какой дистрибутив хаупа? Это клаудера?

— 20.01.2019 19:11

scala performance apache-spark apache-spark-sql

20.01.2019 18:10

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...