Почему алгоритм усиления сходится при инициализации с неравными вероятностями?

Учитывая следующую среду, почему алгоритм подкрепления (или любой другой простой алгоритм градиента политики) сходится к оптимальному решению для выполнения действия b, даже если начальная вероятность выполнения действия a намного выше?

  1. Старт в состоянии S0

  2. Примите меры ---> награда 5

    Выполните действие b ---> награда 10

  3. Эпизод заканчивается, начните снова в состоянии s0

Оптимизация производительности модели: Руководство по настройке гиперпараметров в Python с Keras
Оптимизация производительности модели: Руководство по настройке гиперпараметров в Python с Keras
Настройка гиперпараметров - это процесс выбора наилучшего набора гиперпараметров для модели машинного обучения с целью оптимизации ее...
Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Kubernetes - это портативная, расширяемая платформа с открытым исходным кодом для управления контейнерными рабочими нагрузками и сервисами, которая...
Udacity Nanodegree Capstone Project: Классификатор пород собак
Udacity Nanodegree Capstone Project: Классификатор пород собак
Вы можете ознакомиться со скриптами проекта и данными на github .
Определение пород собак с помощью конволюционных нейронных сетей (CNN)
Определение пород собак с помощью конволюционных нейронных сетей (CNN)
В рамках финального проекта Udacity Data Scietist Nanodegree я разработал алгоритм с использованием конволюционных нейронных сетей (CNN) для...
Почему Python - идеальный выбор для проекта AI и ML
Почему Python - идеальный выбор для проекта AI и ML
Блог, которым поделился Harikrishna Kundariya в нашем сообществе Developer Nation Community.
0
0
205
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Он будет сходиться к оптимальному решению для выполнения действия b, потому что градиент действия с более высокой ценностью вознаграждения всегда будет делать большие шаги в долгосрочной перспективе.

Ключ к этому вопросу заключается в том, что функция потерь:

журнал (вероятность (действие)) * вознаграждение

имеет градиент

(1/вероятность) * награда

Таким образом, если модель имеет вероятность 90% (0,9) для действия a, градиент функции потерь составляет 1/0,9 * вознаграждение = 1,111 * вознаграждение. Если модель выполняет действие b с вероятностью 10% (0,1), градиент составляет 1/0,1 * вознаграждение = 10 * вознаграждение. Так что градиент этого пробега будет в девять раз выше. Это уравновешивает тот факт, что веса действий с высокой вероятностью будут увеличиваться чаще, и уменьшает этот градиент к вознаграждению. Таким образом, результат модели будет сводиться только к выполнению действия с наибольшей наградой.

Другие вопросы по теме