Учитывая следующую среду, почему алгоритм подкрепления (или любой другой простой алгоритм градиента политики) сходится к оптимальному решению для выполнения действия b, даже если начальная вероятность выполнения действия a намного выше?
Старт в состоянии S0
Примите меры ---> награда 5
Выполните действие b ---> награда 10
Эпизод заканчивается, начните снова в состоянии s0
Ключ к этому вопросу заключается в том, что функция потерь:
журнал (вероятность (действие)) * вознаграждение
имеет градиент
(1/вероятность) * награда
Таким образом, если модель имеет вероятность 90% (0,9) для действия a, градиент функции потерь составляет 1/0,9 * вознаграждение = 1,111 * вознаграждение. Если модель выполняет действие b с вероятностью 10% (0,1), градиент составляет 1/0,1 * вознаграждение = 10 * вознаграждение. Так что градиент этого пробега будет в девять раз выше. Это уравновешивает тот факт, что веса действий с высокой вероятностью будут увеличиваться чаще, и уменьшает этот градиент к вознаграждению. Таким образом, результат модели будет сводиться только к выполнению действия с наибольшей наградой.