Я предварительно пытаюсь обучить модель глубокого обучения с подкреплением задаче выхода из лабиринта, и каждый раз в качестве входных данных используется одно изображение (например, другой «лабиринт»).
Предположим, у меня есть около 10 000 различных изображений лабиринта, и в идеальном случае после обучения N лабиринтов моя модель хорошо справится с задачей быстрого решения головоломки на остальных 10 000 — N изображений.
Я пишу, чтобы узнать о хорошей идее/эмпирических данных о том, как выбрать хороший N для тренировочной задачи.
И вообще, как мне оценить и улучшить способность «переносного обучения» моей модели подкрепления? Сделать его более общим?
Любые советы или предложения будут очень признательны. Спасибо.
@Neb Просто очень стандартно env
. Что-то вроде github.com/samyzaf/tdfmaze/blob/master/tdfmaze.py
Во-первых,
Я настоятельно рекомендую вам использовать 2D массивы для карт лабиринтов вместо картинки, это принесет вашей модели огромную пользу, потому что это более функциональный подход. попробуйте использовать двумерные массивы, в которых стены показаны единицами на фоне нулей.
А про нахождение оптимизированного N:
Ваш архитектура модели намного важнее, чем доля обучающих данных во всех данных или размеры партий. Лучше создать хорошо спроектированную модель, а затем найти оптимизированное количество N путем тестирования различных N (поскольку это всего лишь одна переменная, процесс оптимизации N можно легко выполнить самостоятельно).
Ваш подход мне непонятен. Что еще вы даете своей модели, кроме изображения лабиринта, чтобы помочь ей решить задачу побега?