当前位置：网站首页>4. Apprentissage stratégique

4. Apprentissage stratégique

2022-07-08 01:14:00 【C - - G】

Policy Gradient with Baseline

Policy Gradient
Insérer la description de l'image ici

BaseLine
Monte Carlo Approximation
Choices of Baselines
Choice 1: b=0

**Choice 2:b is state-value **
b = VΠ（St）

Insérer la description de l'image ici

Policy Network
Value Network
Parameter Sharing

Reinforce with Baseline

Updating the policy network

Advantage Actor-Critic（A2C）

Insérer la description de l'image ici

Reinforce versus A2C

La structure du réseau est presque identique entre les deux , Les réseaux de valeur sont différents Insérer la description de l'image ici

A2C with Multi-Step TD Target

one tep
Insérer la description de l'image ici

Multi step

Reinforce with Baseline

Insérer la description de l'image ici

versus

Insérer la description de l'image ici

版权声明
本文为[C - - G]所创，转载请带上原文链接，感谢
https://yzsam.com/2022/189/202207072320355586.html

边栏推荐

猜你喜欢

随机推荐