Значения SHAP не совпадают с предсказаниями модели XGBoost

Позвольте мне в предисловии сказать, что за последние два дня я смутно научился использовать эту программу, поэтому вполне возможно, что я допустил невероятно простую ошибку, но любая помощь будет очень признательна. Я пытаюсь использовать водопад SHAP, чтобы визуализировать влияние различных переменных на прогноз моей модели XGBoost. Модель учитывает 13 переменных о зарплате команды, а затем прогнозирует ее рейтинг. Модель работает хорошо, но когда я пытаюсь использовать SHAP, ее значения неверны. Насколько я понимаю, f(x) в правом верхнем углу водопада должен совпадать с предсказанием модели, но это совсем не так.

Вот мой код:

import shap
from joblib import dump, load
import xgboost as xgb
import pandas as pd
import numpy as np

filen = f"D:\miniconda-keep\Created Data\Done Data - Copy.csv"
X = pd.read_csv(filen).iloc[:,3:-3].div(10000).astype(int)
y = pd.read_csv(filen).iloc[:,-1:].astype(int).subtract(1)

model = load("D:\miniconda-keep\Saved Will Made Files\Models\Successful_XGBoost_Model.joblib")


explainer = shap.Explainer(model)
shap_values = explainer(X)
pred = model.predict(X)

#EDIT THE VARIABLE BELOW TO LOOK AT DIFFERENT TEAMS
to_pred = 21

print(X.iloc[to_pred].subtract(X.mean(axis=0)))

print('Team:',pd.read_csv(filen).iloc[to_pred,1])
print(f"model pred {pred[to_pred]+1}")

shap.plots.waterfall(shap_values[to_pred,:,pred[to_pred]])

Это выходной и каскадный график:

Average Salary                 73.311005
Highest Salary               1280.382775
Number of Homegrowns            0.000000
Salary IQR                     25.593301
Salary Standard Deviation     239.521531
Average GK Salary               5.866029
Average Defender Salary        10.866029
Average Midfielder Salary     118.449761
Average Attacker Salary       137.674641
Highest Goalkeeper Salary      32.688995
dtype: float64
Team: Toronto FC
model pred 15

Значения SHAP не совпадают с предсказаниями модели XGBoost

Рабочий пример со страницы примеров API SHAP:

import xgboost

import shap

# train XGBoost model
X, y = shap.datasets.adult()
model = xgboost.XGBClassifier().fit(X, y)

# compute SHAP values
explainer = shap.Explainer(model, X)
shap_values = explainer(X)

shap.plots.waterfall(shap_values[0])

Это выводит:

Значения SHAP не совпадают с предсказаниями модели XGBoost

Большое спасибо за любую помощь!

Вы забыли добавить рабочий пример.

Michael M 11.04.2024 22:10

@MichaelM Я только что добавил пример из Shap API. Спасибо.

William Thomas 12.04.2024 00:21

Какая у вас модель? Я подозреваю, что вы выполнили классификацию, так что результат, скорее всего, будет в логарифме прогнозируемого класса.

Ben Reiniger 12.04.2024 00:25

@BenReiniger Да, это был xgb_classifier. Означает ли это, что результат — это вероятность того, что модель сделает этот прогноз?

William Thomas 12.04.2024 01:06

Это журнал шансов.

Michael M 12.04.2024 07:49
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
5
463
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Выходные данные SHAP представляли собой логарифмические шансы модели, делающей этот прогноз, согласно @MichaelM. Это произошло потому, что модель представляла собой классификатор XGBoost, а не регрессор. При использовании регрессора XGBoost значение SHAP фактически является прогнозом модели.

С регрессором XGBoost:

import xgboost
import shap
import pandas as pd
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import cross_val_score
from numpy import absolute


filen = "D:\miniconda-keep\Created Data\Done Data - Copy.csv"
X, y=pd.read_csv(filen).iloc[:,3:-3].div(10000), pd.read_csv(filen).iloc[:,-1:]

model = xgboost.XGBRegressor()
# define model evaluation method
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1)
# force scores to be positive
scores = absolute(scores)
print('Mean MAE: %.3f (%.3f)' % (scores.mean(), scores.std()) )
model.fit(X, y)
explainer = shap.Explainer(model)
shap_values = explainer(X)

#EDIT VARIABLE BELOW TO CHANGE TEAM
row = 2
# visualize the first prediction's explanation
print(pd.read_csv(filen).iloc[row,1])
print(pd.read_csv(filen).iloc[row,-1])
shap.plots.waterfall(shap_values[row])

Это выводит:

Mean MAE: 3.348 (0.495)
FC Cincinnati
1.0

Водопад SHAP из регрессионной модели XGBoost

Другие вопросы по теме