Я изучаю машинное обучение, и я часто сталкивался с людьми, разделяющими свои данные на «обучающий набор» и «набор для проверки». Я никогда не мог понять, почему люди никогда просто не использовали все данные для обучения, а затем просто использовали их снова для проверки. Есть ли причина, по которой я скучаю?
Потому что каждая викторина проста, если вы уже знаете ответы?






Подумайте об этом так: вы собираетесь сдавать экзамен и усердно практикуетесь со своими практическими материалами. Вы ведь не знаете, что вас спросят на экзамене?
С другой стороны, если вы будете практиковаться с самим экзаменом, когда вы будете сдавать экзамен, вы будете знать все ответы, так что вам даже не придется учиться.
Так обстоит дело с вашей моделью: если вы тренируете свою модель как на наборе поездов, так и на тестовом наборе, ваша модель будет знать все ответы заранее. Вам нужно дать ему то, чего он не знает, чтобы он мог вывести вам некоторые ответы.
По сути, вы хотели бы, чтобы модель обучалась с использованием набора данных поезда, чтобы проверить, правильно ли выполнена настройка гиперпараметров, вы хотели бы протестировать ее с частью набора данных.
Если это было сделано непосредственно на тестовых данных, высока вероятность переобучения. Чтобы избежать этого, вы используете набор данных проверки и измеряете производительность вашей модели по сравнению с набором тестовых данных.
Это более глубокий вопрос, и он определенно не для StackOverflow. Попробуйте обмен стеком Перекрестная проверка.