当前位置:网站首页>5、离散控制与连续控制

5、离散控制与连续控制

2022-07-07 23:21:00 C--G

Discrete VS Continuous Control

Discrete
在这里插入图片描述
Continuous
在这里插入图片描述
DQN一个动作一个维度,不能用于连续控制
在这里插入图片描述
Policy Network一个动作一个维度,不能用于连续控制
在这里插入图片描述
非要用DQN做连续控制,就要将连续空间离散化
在这里插入图片描述
在这里插入图片描述
Better Approaches to Continuous Control
在这里插入图片描述

Deterministic policy network

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

updating Value Network by TD

在这里插入图片描述

Updating Policy Network by DPG

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

improvement:Using Target Networks

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
提升方法
在这里插入图片描述
在这里插入图片描述

Stochastic Policy for Continuous Control

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Policy Network

Univariate Normal Distribution
在这里插入图片描述
Multivariate Normal Distribution
在这里插入图片描述
Function Approximation
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Training Policy Network

在这里插入图片描述

Auxiliary Network

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Policy Gradient Methods

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_50973728/article/details/125668364