Я хочу знать, как мы можем узнать, какой столбец является важным в наборе данных. для например. длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка и виды — это столбцы в наборе данных, который является значимым столбцом среди пяти из них.
import pandas as pd
import seaborn as sns
from sklearn import datasets
iris = datasets.load_iris()
# merge data and target into dataframe
data = pd.DataFrame(iris.data, columns=iris.feature_names)
data['Target'] = iris.target
corelation_values = data.corr()
corr_heatmap = sns.heatmap(corelation_values, xticklabels=data.columns, yticklabels=data.columns)
Вывод тепловой карты корреляции выглядит следующим образом:
очевидно, что все остальные признаки в наборе данных по радужной оболочке сильно коррелируют друг с другом, поэтому наиболее важным признаком (с наиболее характерным характером) является ширина чашелистика.