Я импортировал список клиентов в python для выполнения некоторого анализа RFM, это добавляет новое поле к данным для класса RFM, поэтому теперь мои данные выглядят следующим образом:
customer RFMClass
0 0001914f-4655-4148-a1dc-1f25ca6d1f15 343
1 0002e50a-5551-4d9a-8734-76307dfe2131 341
2 00039977-512e-47ad-b929-170f18a1b14a 442
3 000693ff-2c61-425c-97c1-0286c874dd2f 443
4 00095dc2-7f37-48b0-894f-910d90cbbee2 142
5 000b748b-7ea0-48f2-a875-5f6cb95561d9 141
...
Я хотел бы построить гистограмму, показывающую количество клиентов в каждом классе RFM, как я могу подсчитать количество различных идентификаторов клиентов для каждого класса?
Я попытался добавить 1
в каждую строку с summary['number'] = 1
, думая, что было бы проще подсчитать их, а не идентификаторы клиентов, поскольку они уже были де-дублированы в моем коде, но я не могу понять, как их суммировать на RFM Класса тоже нет.
Есть мысли о том, как я могу это сделать?
Я решил это, используя .groupby
в своем классе RFM и суммируя «номер», который я присвоил каждой строке:
byhour = df.groupby(['Hour']).agg({'Orders': 'sum'})
print(byhour)
Затем это дает желаемый результат:
Orders
Hour
0 902
1 438
2 307
3 162
4 149
5 233
6 721