Итак, я пытаюсь понять градиентный спуск и запутался. Если у вас есть парабола, которая теряется при изменении веса. Вместо того, чтобы брать производную в точке x, в которой мы находимся, почему бы просто не найти вершину параболы?
Ты сможешь. Если ваша функция потерь на самом деле является параболой (или другой удобной выпуклой функцией), вы можете. Но, скорее всего, ваша функция потерь невыпуклая и сверхсложная, и вы априори не знаете, что это такое. Поэтому мы используем градиентный спуск так, как мы это делаем — мы постоянно сэмплируем. Когда вы видите удобные параболы, это просто упрощенная иллюстрация.
Вероятно, datascience.stackexchange.com — более подходящий сайт для общих вопросов по машинному обучению.