Позвольте мне в предисловии сказать, что за последние два дня я смутно научился использовать эту программу, поэтому вполне возможно, что я допустил невероятно простую ошибку, но любая помощь будет очень признательна. Я пытаюсь использовать водопад SHAP, чтобы визуализировать влияние различных переменных на прогноз моей модели XGBoost. Модель учитывает 13 переменных о зарплате команды, а затем прогнозирует ее рейтинг. Модель работает хорошо, но когда я пытаюсь использовать SHAP, ее значения неверны. Насколько я понимаю, f(x) в правом верхнем углу водопада должен совпадать с предсказанием модели, но это совсем не так.
Вот мой код:
import shap
from joblib import dump, load
import xgboost as xgb
import pandas as pd
import numpy as np
filen = f"D:\miniconda-keep\Created Data\Done Data - Copy.csv"
X = pd.read_csv(filen).iloc[:,3:-3].div(10000).astype(int)
y = pd.read_csv(filen).iloc[:,-1:].astype(int).subtract(1)
model = load("D:\miniconda-keep\Saved Will Made Files\Models\Successful_XGBoost_Model.joblib")
explainer = shap.Explainer(model)
shap_values = explainer(X)
pred = model.predict(X)
#EDIT THE VARIABLE BELOW TO LOOK AT DIFFERENT TEAMS
to_pred = 21
print(X.iloc[to_pred].subtract(X.mean(axis=0)))
print('Team:',pd.read_csv(filen).iloc[to_pred,1])
print(f"model pred {pred[to_pred]+1}")
shap.plots.waterfall(shap_values[to_pred,:,pred[to_pred]])
Это выходной и каскадный график:
Average Salary 73.311005
Highest Salary 1280.382775
Number of Homegrowns 0.000000
Salary IQR 25.593301
Salary Standard Deviation 239.521531
Average GK Salary 5.866029
Average Defender Salary 10.866029
Average Midfielder Salary 118.449761
Average Attacker Salary 137.674641
Highest Goalkeeper Salary 32.688995
dtype: float64
Team: Toronto FC
model pred 15

Рабочий пример со страницы примеров API SHAP:
import xgboost
import shap
# train XGBoost model
X, y = shap.datasets.adult()
model = xgboost.XGBClassifier().fit(X, y)
# compute SHAP values
explainer = shap.Explainer(model, X)
shap_values = explainer(X)
shap.plots.waterfall(shap_values[0])
Это выводит:

Большое спасибо за любую помощь!
@MichaelM Я только что добавил пример из Shap API. Спасибо.
Какая у вас модель? Я подозреваю, что вы выполнили классификацию, так что результат, скорее всего, будет в логарифме прогнозируемого класса.
@BenReiniger Да, это был xgb_classifier. Означает ли это, что результат — это вероятность того, что модель сделает этот прогноз?
Это журнал шансов.






Выходные данные SHAP представляли собой логарифмические шансы модели, делающей этот прогноз, согласно @MichaelM. Это произошло потому, что модель представляла собой классификатор XGBoost, а не регрессор. При использовании регрессора XGBoost значение SHAP фактически является прогнозом модели.
С регрессором XGBoost:
import xgboost
import shap
import pandas as pd
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import cross_val_score
from numpy import absolute
filen = "D:\miniconda-keep\Created Data\Done Data - Copy.csv"
X, y=pd.read_csv(filen).iloc[:,3:-3].div(10000), pd.read_csv(filen).iloc[:,-1:]
model = xgboost.XGBRegressor()
# define model evaluation method
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1)
# force scores to be positive
scores = absolute(scores)
print('Mean MAE: %.3f (%.3f)' % (scores.mean(), scores.std()) )
model.fit(X, y)
explainer = shap.Explainer(model)
shap_values = explainer(X)
#EDIT VARIABLE BELOW TO CHANGE TEAM
row = 2
# visualize the first prediction's explanation
print(pd.read_csv(filen).iloc[row,1])
print(pd.read_csv(filen).iloc[row,-1])
shap.plots.waterfall(shap_values[row])
Это выводит:
Mean MAE: 3.348 (0.495)
FC Cincinnati
1.0
Вы забыли добавить рабочий пример.