Оптимизирован ли "группировать по" в sql-запросе spark?

Объединяются ли данные в каждом разделе? Как мы все знаем, при использовании reduceByKey данные объединяются в каждом разделе, только один выход для одного ключа в каждом разделе для отправки по сети. reduceByKey требует объединения всех ваших значений в другое значение того же типа. Я имею в виду, это как уменьшить?

Возможный дубликат DataFrame / Dataset group По поведению / оптимизации

10465355 31.10.2018 14:05

да, он оптимизирован, но ограничен встроенными функциями агрегирования (если вы не реализуете UDAF).

Raphael Roth 31.10.2018 16:51
0
2
334
0

Другие вопросы по теме