У меня есть 2D-массив, и я пытаюсь подобрать кривую для данных. моя целевая функция является полиномиальной функцией:
def objective(x, a, b, c):
return a * x + b * x**2 + c
Я использовал curve_fit
из scipy.optimize
, чтобы найти подходящую кривую для данных. Но, мне нужно знать, насколько эта модель хороша. в чем разница между фактическими данными и расчетной кривой?
как я могу найти это? доза curve_fit
использовать среднеквадратичную ошибку, чтобы найти кривую? как я могу контролировать эту разницу?
Вам лучше использовать np.polynomial.polynomial.polyfit` для полиномиальной подгонки.
Согласно документации curve_fit, установив входной аргумент full_output
в True
, функция возвращает некоторую дополнительную информацию об оптимизации; в частности, функция возвращает словарь (infodict
) с записью fvec
, которая содержит остатки (y - y_star
), оцененные при решении. Кроме того, метод по умолчанию, используемый для оптимизации, — метод наименьших квадратов, если применимо (посмотрите на аргумент method
).
Итак, если вы хотите узнать ошибку подогнанной функции, вы можете использовать эту информацию:
from scipy.optimize import curve_fit
import numpy as np
def objective(x, a, b, c):
return a * x + b * x**2 + c
x = np.arange(-10, 10, 1)
data = objective(x, 1, 2, 3) + np.random.normal(0, 10, (len(x),))
potp, pcov, info, msg, ier = curve_fit(objective, x, data, full_output=True, method='lm')
y_hat = objective(x, *potp.tolist())
# residuals are in the entry 'fvec' of the info dict.
# These are the residuals evaluated at the solution, i.e., f(x) - data
# Compute sum of squared residuals
err = np.dot(info['fvec'], info['fvec'])
Это график, представляющий исходные данные и интерполяцию в предыдущем коде.
Более того, в документации указано, что curve_fit
использует наименьший квадрат в качестве метода оптимизации, если границы не указаны; в частности, он пытается минимизировать сумму квадратов функции ошибок. Если указаны границы или количество наблюдений меньше количества переменных, curve_fit
использует наименьшие_квадраты; least_square
решает ограниченную нелинейную задачу наименьших квадратов.
Да, переменная err
— это сумма квадратов ошибок. На второй вопрос, пожалуйста, посмотрите на ответ: я обновил его.
если я хочу рассчитать минимальную оптимизацию вместо метода наименьших квадратов, возможно ли это с помощью curve_fit?
Вы можете взглянуть на функцию minimize
в модуле optimize
библиотеки scipy
.
переменная err показывает квадрат ошибки исходной и интерполированной функции, верно? какой метод использует curve_fit для минимизации ошибки между фактическими и интерполированными данными?