Я новичок в машинном обучении и хотел бы задать вопрос об обобщении модели. В моем случае я собираюсь производить некоторые механические детали, и меня интересует контроль входных параметров для получения определенных свойств конечной детали.
В частности, меня интересуют 8 параметров (скажем, P1, P2,..., P8). Чтобы оптимизировать количество необходимых изделий, чтобы максимизировать комбинации исследуемых параметров, я разделил задачу на 2 группы. Для первого набора фигур я буду варьировать первые 4 параметра (P1 ... P4), а остальные оставлю неизменными. Во втором случае сделаю наоборот (переменные P5...P8 и константы P1...P4).
Поэтому я хотел бы знать, возможно ли создать единую модель с восемью параметрами в качестве входных данных для прогнозирования свойств конечной детали. Я спрашиваю, потому что, поскольку я не меняю все 8 переменных одновременно, я подумал, что, возможно, мне придется сделать 1 модель для каждого набора параметров, и прогнозы 2 разных моделей не могут быть связаны друг с другом. .
Заранее спасибо.
В большинстве случаев две разные модели будут иметь лучшую точность, чем одна большая модель. Причина в том, что в локальных моделях модель будет рассматривать только 4 функции и сможет идентифицировать закономерности среди них, чтобы сделать прогноз.
Но этот конкретный подход наверняка не удастся масштабировать. Прямо сейчас у вас есть только два набора данных, но что, если их количество увеличится, и у вас будет 20 наборов данных. Вы не сможете создавать и поддерживать 20 моделей ML в производстве.
Что лучше всего подходит для вашего случая, потребует некоторых экспериментов. Возьмите случайную выборку из данных и обучите модели машинного обучения. Возьмите одну большую модель и две локальные модели и оцените их производительность. Не только точность, но и их оценка F1, AUC-PR и кривая ROC, чтобы выяснить, что лучше всего подходит для вас. Если вы не видите серьезного падения производительности, лучше использовать одну большую модель для всего набора данных. Если вы знаете, что ваши данные всегда будут разделены на эти два набора, и вас не волнует масштабируемость, используйте две локальные модели.
Понимаю. Но в случае использования двух моделей я хотел бы знать, можно ли сопоставить две модели. Я имею в виду, если бы можно было сказать: хорошо, если я введу следующие значения в P1, P3, P6 и P8, я получу свойства X.
Это полностью зависит от модели и библиотеки. Если вы отправляете эти атрибуты, то каково будет значение остальных из них. Некоторые модели будут принимать null
как приемлемую функцию, но другие будут выдавать ошибку, поэтому вам также потребуется значение для этих функций.
Это действительно вопрос для stats.stackexchange.com...