Объединяются ли данные в каждом разделе? Как мы все знаем, при использовании reduceByKey данные объединяются в каждом разделе, только один выход для одного ключа в каждом разделе для отправки по сети. reduceByKey требует объединения всех ваших значений в другое значение того же типа. Я имею в виду, это как уменьшить?
да, он оптимизирован, но ограничен встроенными функциями агрегирования (если вы не реализуете UDAF).
Возможный дубликат DataFrame / Dataset group По поведению / оптимизации