Мой вопрос почти идентичен Поиску частоты каждого значения во всех категориальных столбцах в фрейме данных, но мне нужны вероятности, а не частоты. Мы можем использовать тот же пример фрейма данных:
df = pd.DataFrame(
{'sub_code': ['CSE01', 'CSE01', 'CSE01', 'CSE02', 'CSE03', 'CSE04',
'CSE05', 'CSE06'],
'stud_level': [101, 101, 101, 101, 101, 101, 101, 101],
'grade': ['STA', 'STA', 'PSA', 'STA', 'STA', 'SSA', 'PSA', 'QSA']})
Я попытался адаптировать этот ответ следующим образом:
out = (df.select_dtypes(object)
.melt(var_name = "Variable", value_name = "Class")
.value_counts(dropna=False, normalize=True)
.reset_index(name = "Probability")
.sort_values(by=['Variable', 'Class'], ascending=[True, True])
.reset_index(drop=True))
Однако код не работает, поскольку сумма вероятностей классов для каждой переменной не равна 1. Что я делаю не так?
Думаю, я нашел решение, но мне ужасно не хватает словарного запаса по статистике, поэтому я не уверен, правильно ли оно, но если бы я увидел желаемый результат, я был бы достаточно уверен, чтобы опубликовать его.






IIUC, вам нужно groupby включить 'Variable' после плавления. Это даст вам вероятности для каждого значения в 'Class' по отношению к каждому значению в 'Variable'.
out = (
df.select_dtypes(object)
.melt(var_name = "Variable", value_name = "Class")
.groupby("Variable") # add this line
.value_counts(dropna=False, normalize=True)
.reset_index(name = "Probability")
.sort_values(by=["Variable", "Class"], ascending=[True, True])
.reset_index(drop=True)
)
Variable Class Probability
0 grade PSA 0.250
1 grade QSA 0.125
2 grade SSA 0.125
3 grade STA 0.500
4 sub_code CSE01 0.375
5 sub_code CSE02 0.125
6 sub_code CSE03 0.125
7 sub_code CSE04 0.125
8 sub_code CSE05 0.125
9 sub_code CSE06 0.125
Не могли бы вы добавить желаемый результат? Для справки минимальный воспроизводимый пример.