Кажется странным в образе мышления SPARK. Или я ошибся?





Spark Bucketing - это дисковый эквивалент разбиения на разделы (оба организуют данные с использованием определенного ключа и хеш-разбиения) - если вы хотите «встроить» процесс, просто repartition ваш Dataset
df.repartition(nPartitions, col)
Так просто? Я проверю еще раз
Не могли бы вы рассказать подробнее?