Я работаю с титаническим набором данных. Для визуализации распределения данных я использую морские методы построения графиков. Но я не могу понять аргументы distplot
и его окончательный вывод, что он дает.
Я хочу знать использование аргументов (параметров), используемых в следующих строках, особенно использование bins
и axes[0]
и kde = False
.
ax = sns.distplot(women[women['Survived']==1].Age.dropna(), bins=18,
label = survived, ax = axes[0], kde =False)
ax = sns.distplot(women[women['Survived']==0].Age.dropna(), bins=40,
label = not_survived, ax = axes[0], kde =False)
Я уже искал distplot
в документации и рылся в сети, но ничего не написано внятно.
как узнать оптимальное количество бинов и как это влияет на детали?
Чем больше бинов, тем больше деталей. «Оптимум» четко не определен. Конечно, у вас есть возраст, и это целые числа, не следует использовать 113 бинов, потому что это приведет к избыточной выборке данных.
Основываясь на вашем коде, я предполагаю, что axes
должен быть списком Axes
объектов, а axes[0]
означает, что вы получаете доступ к первому объекту в списке. Когда вы используете ax=axes[0]
, это означает, что вы хотите, чтобы ваш график был слева. См. этот полезный пост.
По умолчанию Seaborn отображает как оценка плотности ядра, так и гистограмму, kde=False
означает, что вы хотите скрыть это и отображать только гистограмму.
Со статистической точки зрения гистограмма представляет собой непараметрическую оценку, и ее форма отражает распределение ваших данных. Количество ячеек влияет на форму. Таким образом, вы не должны просто случайным образом выбирать номер ячейки, если хотите, чтобы ваш график представлял распределение ваших данных. Наиболее распространенный способ определить подходящее количество бинов — использовать Правило Фридмана – Диакониса, который также является настройкой по умолчанию в .distplot()
. Другими словами, когда вы используете функцию .distplot()
для отображения распределения данных, аргумент bin
лучше не указывать.
Во-первых, мы пытаемся понять, что такое distplot? Distplot — это функция морской библиотеки Python. Который представлен так: sns.seaborn()
.
Он используется для построения графика морская гистограмма.
Теперь, В вашем уме может возникнуть вопрос, Почему я буду строить гистограмму. Гистограмма помогает визуализировать набор данных числового типа в столбцах.
По оси Y укажите числовой набор данных, как вы указали "women['Survived']==1"
и [women['Survived']==0]
По оси x даются бины. Это означает распределить данный набор данных в определенном диапазоне и показать в столбцах, как вы указали bins= 18
и bins = 40
введите описание изображения здесь
Теперь я показываю синтаксис seaborn sns.distplot()
Syntax: sns.distplot(
a,
bins=None,
hist=True,
kde=True,
rug=False,
fit=None,
hist_kws=None,
kde_kws=None,
rug_kws=None,
fit_kws=None,
color=None,
vertical=False,
norm_hist=False,
axlabel=None,
label=None,
ax=None,
)
Используя вышеуказанные параметры, вы можете очень хорошо построить гистограмму следуйте этому замечательному уроку, чтобы нарисовать морская гистограмма с использованием sns.distplot
bins
— сколько баров вы хотите увидеть.ax
— это то, по какой из осей вы хотите построить график (axes
, по-видимому, содержит две оси,axes[0]
выбирает первую из них).