当前位置:网站首页>4、策略學習

4、策略學習

2022-07-08 01:14:00 C--G

Policy Gradient with Baseline

Policy Gradient
在這裏插入圖片描述

  • BaseLine
    在這裏插入圖片描述
    在這裏插入圖片描述
  • Monte Carlo Approximation
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
  • Choices of Baselines
    Choice 1: b=0
    在這裏插入圖片描述
    **Choice 2:b is state-value **在這裏插入圖片描述
  • b = VΠ(St)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

  • Policy Network
    在這裏插入圖片描述
  • Value Network
    在這裏插入圖片描述
  • Parameter Sharing
    在這裏插入圖片描述

Reinforce with Baseline

  • Updating the policy network
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

Advantage Actor-Critic(A2C)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Reinforce versus A2C

兩者網絡結構幾乎一致,價值網絡不同在這裏插入圖片描述

A2C with Multi-Step TD Target

one tep
在這裏插入圖片描述
在這裏插入圖片描述
Multi step
在這裏插入圖片描述

Reinforce with Baseline

在這裏插入圖片描述

versus

在這裏插入圖片描述
在這裏插入圖片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/189/202207072320355586.html