当前位置:网站首页>4. Apprentissage stratégique

4. Apprentissage stratégique

2022-07-08 01:14:00 C - - G

Policy Gradient with Baseline

Policy Gradient
Insérer la description de l'image ici

  • BaseLine
    Insérer la description de l'image ici
    Insérer la description de l'image ici
  • Monte Carlo Approximation
    Insérer la description de l'image ici
    Insérer la description de l'image ici
    Insérer la description de l'image ici
  • Choices of Baselines
    Choice 1: b=0
    Insérer la description de l'image ici
    **Choice 2:b is state-value **Insérer la description de l'image ici
  • b = VΠ(St)

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

  • Policy Network
    Insérer la description de l'image ici
  • Value Network
    Insérer la description de l'image ici
  • Parameter Sharing
    Insérer la description de l'image ici

Reinforce with Baseline

  • Updating the policy network
    Insérer la description de l'image ici
    Insérer la description de l'image ici
    Insérer la description de l'image ici

Advantage Actor-Critic(A2C)

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici

Reinforce versus A2C

La structure du réseau est presque identique entre les deux , Les réseaux de valeur sont différents Insérer la description de l'image ici

A2C with Multi-Step TD Target

one tep
Insérer la description de l'image ici
Insérer la description de l'image ici
Multi step
Insérer la description de l'image ici

Reinforce with Baseline

Insérer la description de l'image ici

versus

Insérer la description de l'image ici
Insérer la description de l'image ici

原网站

版权声明
本文为[C - - G]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/189/202207072320355586.html