В кадре данных pyspark у меня есть временной ряд различных событий, и я хочу рассчитать среднее количество событий по месяцам. Как правильно это сделать с помощью функций pyspark.sql?
У меня такое ощущение, что для этого требуется разделение агг, среднее, окно, но я не смог заставить его работать.
Я сгруппировал данные по событиям и месяцам и получил что-то вроде этого:
+------+-----+-----+
| event|month|count|
+------+-----+-----+
|event1| 1| 1023|
|event2| 1| 1009|
|event3| 1| 1002|
|event1| 2| 1012|
|event2| 2| 1023|
|event3| 2| 1017|
|event1| 3| 1033|
|event2| 3| 1011|
|event3| 3| 1004|
+------+-----+-----+
Я хотел бы иметь это:
+------+-------------+
| event|avg_per_month|
+------+-------------+
|event1| 1022.6666|
|event2| 1014.3333|
|event3| 1007.6666|
+------+-------------+
Каков правильный способ добиться этого?
Это должно помочь вам получить желаемый результат -
df = spark.createDataFrame(
[('event1',1,1023),
('event2',1,1009),
('event3',1,1002),
('event1',2,1012),
('event2',2,1023),
('event3',2,1017),
('event1',3,1033),
('event2',3,1011),
('event3',3,1004)
],["event", "month", "count"])
df.groupBy("event").\
avg("count").alias("avg_per_month").\
show()
df.groupBy("event").\
agg({'count' : 'avg'}).alias("avg_per_month").\
show()