В настоящее время я тренирую модель PPO для моделирования. Модель PPO не понимает, что определенные условия не приведут к вознаграждению.
Эти условия, которые не приводят к вознаграждению, являются очень простыми правилами. Я пытался использовать эти правила для создания «эксперта», которого модель PPO могла бы использовать для имитационного обучения.
Пример экспертных правил:
Если ресурс A недоступен, не выбирайте этот ресурс.
Если «X» и «Y» не совпадают, не выбирайте их.
Пример с библиотекой имитаций
Я смотрел на библиотеку python «имитации». В примере показан эксперт, представляющий собой модель PPO с большим количеством итераций.
https://github.com/HumanCompatibleAI/imitation/blob/master/examples/1_train_bc.ipynb
Вопросы:
Есть ли способ преобразовать простого эксперта, основанного на правилах, в модель PPO, которую можно использовать для имитационного обучения?
Или есть другой подход к использованию «основанного на правилах» эксперта в имитационном обучении?
Глядя на то, как реализовано поведенческое клонирование:
from imitation.algorithms import bc
bc_trainer = bc.BC(
observation_space=env.observation_space,
action_space=env.action_space,
demonstrations=transitions,
)
Все, что вам нужно сделать, это создать демонстрации. Вам даже не нужно писать «агент» как таковой. Просто создавайте последовательности взаимодействия с вашей средой, используя своего бота на основе правил, вот и все.