Я пытаюсь сравнить два столбца в моем фрейме данных и хочу построить их в виде горизонтальной гистограммы с помощью Seaborn. На графике ниже нанесен только один столбец («budget2019»).
1) Как я могу построить рядом с ним второй столбец («budget2018»), чтобы можно было лучше увидеть эволюцию значений обоих столбцов и визуально сравнить оба столбца для каждого «министерства»?
2) Как я могу поместить значение x в конец каждого столбца, чтобы можно было видеть (читать) значение x на каждом столбце, и не приходилось опускать глаза вниз и пытаться приблизить значение? Потому что теперь на реальном графике невозможно прочитать значение x непосредственно из столбца. (довольно сложно получить точное значение, глядя на график)
3) После того, как я построю столбцы «budget2018» рядом с столбцами «budget2019», есть ли способ также отобразить эволюцию в процентах на графике? Чтобы визуально было лучше читаться, какова эволюция в% между обоими столбцами?
Вот взгляд на мой фреймворк:
А вот код, который я сейчас использую для построения:
plt.figure(figsize=(15,8))
sns.set(style = "darkgrid")
#ax = sns.barplot(x = "budget2018", y = "ministere", data=budget, label = "Total")
sns.set_color_codes("pastel")
sns.barplot(x = "budget2019", y = "ministere", data=budget, label = "Budget 2019")
sns.despine(left=True, bottom=True)
plt.tight_layout()
plt.show()
PS: Если это невозможно с Seaborn, решение только с Matplotlib тоже подойдет. И что необходимо, это горизонтальные полосы, как в моем графике, иначе yticks не читаются.
ИЗМЕНИТЬ (после использования кода в комментарии ImportanceOfBeingErnest):
Вот сюжет, который я на самом деле вижу после того, как @ImportanceOfBeingErnest прокомментировал. Это довольно близко к тому, что мне нужно.
Это сразу слишком много вопросов. Или «слишком широко», как говорят ТАК. Ваш первый вопрос можно задать как df.set_index("ministere").plot.bar()
. Второй вопрос задают так часто, что действительно сложно пропустить один из дубликатов при поиске. Третий вопрос может быть интересным. Но вы забыли сказать как, как вы себе это представляете.
Большое спасибо за вашу помощь @ImportanceOfBeingErnest, это очень помогло! Теперь, да, как я это себе представляю ... Я бы сказал, что для меня лучше всего было бы иметь: 1) значение 'budget2019' слева, по yticks, в начале каждого текста ytick (между круглые скобки) и значение evolution_percent перед каждыми двумя столбцами каждого «министера». Надеюсь, вы поняли, о чем я? : /
Чтобы использовать seaborn, вы должны использовать промежуточный фрейм данных, созданный с помощью melt
, для создания фрейма данных «длинной формы».
df2 = pd.melt(budget, id_vars=['ministere'], value_vars=['budget2018','budget2019'], var_name='year')
затем построение обоих столбцов выполняется с использованием параметра hue=
:
fig,ax = plt.subplots()
sns.set_color_codes("pastel")
sns.barplot(x = "value", y = "ministere", hue = "year", data=df2, palette='pastel')
настроить метки по запросу довольно просто (и вы найдете множество других примеров на SO):
for i,m in budget.iterrows():
ax.annotate(s='{:.2f}%'.format(m.loc['evolution_percent']),
xy=(m.loc[['budget2018','budget2019']].max(),i),
xytext=(10,0),
textcoords='offset pixels',
ha='left',
va='center'
)
labels = ['{:s}\n(2019: {:.2f}€)'.format(d.ministere,d.budget2019) for _,d in budget.iterrows()]
ax.set_yticklabels(labels)
Идеально! Спасибо!
Я склонен понимать различия в dfs, чтобы построить график с использованием plotly
или seaborn
. Итак, что, если нам нужно, чтобы этот график был сложен, а не кластеризован с помощью sns
? Я вижу, что аргумент типа stacked=True
не работает.
Вы всегда должны публиковать df в виде простого текста, так как людям гораздо сложнее набрать его, чтобы помочь вам. Мы ленивы и любим копипаст!