Найдите подходящий полином для данных в Python

Есть ли в Python функция или библиотека для автоматического вычисления наилучшего полинома, подходящего для набора точек данных? Меня не очень интересует вариант использования машинного обучения для обобщения на набор новых данных, я просто сосредотачиваюсь на данных, которые у меня есть. Я понимаю, что чем выше степень, тем лучше подходит. Тем не менее, я хочу что-то, что наказывает или смотрит, где локти ошибки? Когда я говорю «толкаться локтями», я имею в виду что-то вроде этого (хотя обычно это не так резко или очевидно): Найдите подходящий полином для данных в Python

Одна из моих идей заключалась в том, чтобы использовать polyfit Numpy: https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.polyfit.html для вычисления полиномиальной регрессии для диапазона порядков / степеней. Polyfit требует, чтобы пользователь указывал степень полинома, что представляет собой проблему, поскольку у меня нет никаких предположений или предвзятых представлений. Чем выше степень соответствия, тем меньше будет ошибка, но в конечном итоге она станет плато, как на изображении выше. Поэтому, если я хочу автоматически вычислить степень полинома в месте изгиба кривой ошибки: если моя ошибка E, а d - моя степень, я хочу максимизировать (E [d + 1] -E [d]) - (E [d +1] - E [d]).

Это вообще правильный подход? Существуют ли другие инструменты и подходы в хорошо зарекомендовавших себя библиотеках Python, например Numpy или Scipy, которые могут помочь в поиске подходящего полиномиального соответствия (без необходимости указывать порядок / степень)? Буду признателен за любые мысли или предложения! Спасибо!

Вы хотите несколько минимизировать RSS, но при этом избежать переобучения? Я бы попробовал несколько разных шлицев и пошел бы на осмотр. Можете ли вы аналитически определить функцию затрат на «выталкивание»? Это поможет.

— 07.01.2019 00:33

Полагаю, что так. Мне была поставлена задача найти «наилучший» или «наиболее подходящий» полином для произвольного набора точек данных. Поскольку проблема была расплывчатой, я почувствовал необходимость наложить условия и продолжить работу (хотя, пожалуйста, внесите свой вклад, если вы думаете о чем-то другом). Я склонялся к MSE, потому что это то, с чем я больше всего знаком, но, опять же, функцию стоимости можно изменить. Не могли бы вы также подробнее рассказать о предложенном вами подходе со сплайнами? Спасибо!

— 07.01.2019 00:41

Я думал о том, как в пределах одной ступени могут быть разные виды шлицев, например, естественные и зажимные. Я надеялся, что с большим количеством подгонок на градус, локоть будет более плавным, а где-то в промежутке таится еще лучшая модель. Компромисс будет заключаться в том, чтобы найти более подходящую реализацию по сравнению с более сложной реализацией.

— 07.01.2019 00:56

Есть ли у вас какое-то представление о максимальной кривизне, которую можно ожидать от такой автоматической подгонки данных - то есть, есть ли у вас какой-то идеал из ожидаемых данных, который может быть переобученным полиномом на основе производной?

— 07.01.2019 02:39

Если у вас есть изгибы, я предлагаю использовать сплайн вместо полинома (сплайн - это, по сути, кусочный полином). См. определение сплайна и слипчивые шлицы. Вы также можете попробовать разные полифиты и сравнить ошибку и степень. Другой подход - использовать многомерную регрессию против различных степеней x.

— 07.01.2019 13:40

python numpy regression data-fitting polynomial-approximations

07.01.2019 00:06

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

771

Ответы 1

Чтобы выбрать «правильную» подгонку и предотвратить чрезмерную подгонку, вы можете использовать Информационный критерий Акиаке или Байесовский информационный критерий. Обратите внимание, что ваша процедура подбора может быть небайесовской, и вы все равно можете использовать ее для сравнения подгонок. Вот быстрое сравнение между двумя методами.

08.01.2019 09:15

Другие вопросы по теме

Выборочное построение нового фрейма данных с существующими фреймами данных в дополнение к расчету

Преобразование словаря словарей в Python в массив numpy в Python

Модель логестической регрессии не обучается

Как создать собственный список из панд?

Numpy удалить строки и столбцы из 3D-массива

IndexError при присвоении переменных Neo4jRestClient

Numpy linalg.solve, а не квадратная матрица

Удалить значения динамического столбца в Excel Sheet + Numpy

Numpy уже установлен с Anaconda, но я получаю ImportError (ошибка загрузки DLL: не удалось найти указанный модуль)

Как я могу выбрать определенные столбцы в DataFrame в зависимости от условий

Найдите подходящий полином для данных в Python

Ответы 1

Другие вопросы по теме

Похожие вопросы