当前位置:网站首页>5、離散控制與連續控制

5、離散控制與連續控制

2022-07-08 01:19:00 C--G

Discrete VS Continuous Control

Discrete
在這裏插入圖片描述
Continuous
在這裏插入圖片描述
DQN一個動作一個維度,不能用於連續控制
在這裏插入圖片描述
Policy Network一個動作一個維度,不能用於連續控制
在這裏插入圖片描述
非要用DQN做連續控制,就要將連續空間離散化
在這裏插入圖片描述
在這裏插入圖片描述
Better Approaches to Continuous Control
在這裏插入圖片描述

Deterministic policy network

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

updating Value Network by TD

在這裏插入圖片描述

Updating Policy Network by DPG

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

improvement:Using Target Networks

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
提昇方法
在這裏插入圖片描述
在這裏插入圖片描述

Stochastic Policy for Continuous Control

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Policy Network

Univariate Normal Distribution
在這裏插入圖片描述
Multivariate Normal Distribution
在這裏插入圖片描述
Function Approximation
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Training Policy Network

在這裏插入圖片描述

Auxiliary Network

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Policy Gradient Methods

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://yzsam.com/2022/189/202207072320355505.html