Почему регрессия случайного леса предсказывает одно и то же значение?

Я пытаюсь использовать регрессор Scikit-Learn Random Forest для прогнозирования номинального ВВП по реальному ВВП.

Я читаю данные с веб-сайта и немного очищаю их, а затем синтезирую фрейм данных с тем, что я предсказал, как реальный ВВП на следующие три года.

У меня есть следующий код:

from sklearn.ensemble import RandomForestRegressor

gdp = pd.read_html('https://www.thebalance.com/us-gdp-by-year-3305543')[0]
gdp.columns = gdp.iloc[0]
gdp = gdp[1:]

gdp['Year'] = gdp['Year'].astype(int)

gdp['Nominal GDP (trillions)'] = gdp['Nominal GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)
gdp['Real GDP (trillions)'] = gdp['Real GDP (trillions)'].str.replace(',', '.').str.replace('$', '').astype(float)

X = pd.DataFrame(gdp['Real GDP (trillions)'].copy())
y = pd.DataFrame(gdp['Nominal GDP (trillions)'].copy())


X_pred = pd.DataFrame(data = [18.313, 18.960, 19.643], columns = ['Real GDP (trillions)'])

reg = RandomForestRegressor(n_estimators = 300)
reg.fit(X, y.values.ravel())

y_pred = reg.predict(X_pred)

Он возвращает следующий прогноз: 1 | 2 | 3 ---|---|--- 19.72172 | 21.05464667 | 21.05464667

Почему второе и третье предсказания идентичны? Это происходит, даже если я изменю значения X_pred на что-то вроде [18.313, 18.960, 39.643]

Чтобы предсказать, что RF передает ваши данные через обученные деревья, 300 параллельных в вашем примере, если данные окажутся в одних и тех же листьях, прогноз будет идентичным. Вы можете проверить оценщиков с помощью reg._estimators

Sergey Bushmanov 11.12.2020 19:14
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
1
1 364
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

В ваших тренировочных данных есть только одно значение > 18.960 :

X[X.values>18.960]

    Real GDP (trillions)
91  19.092

Поэтому крайне маловероятно, что вы получите значение, которое может разделить 18,960 и 19,643 или, если уж на то пошло, 18,960 и 39,643. Это не линейная регрессия, где вы можете интерполировать.

Мы можем проверить пороги для каждого дерева:

thres = np.unique([j for i in reg.estimators_ for j in i.tree_.threshold])
np.sort(thres)[-10:]

array([17.80000019, 17.9375    , 18.00199986, 18.05999947, 18.20950031,
       18.26199913, 18.41149998, 18.41599941, 18.61799908, 18.88999939])

Наибольшее значение вашего порога не может разделить 2 значения, которые вы пытаетесь предсказать, поэтому они всегда будут находиться в одних и тех же узлах, давая вам один и тот же прогноз.

Другие вопросы по теме