当前位置:网站首页>DQN笔记
DQN笔记
2022-06-30 10:05:00 【显哥无敌】
DQN基于Q-Learning,也就是说DQN也是一个离线算法,它第一个关注点是解决空间状态爆炸的问题,也就是说它不解决连续动作的问题
tip:何谓连续动作
例子,取值为(0,1)之间任意数为连续变量,动作包含连续变量的叫做连续动作
最基础的思想是用一个神经网络来拟合Q-Table里面的Q值。
用到了神经网络那么就有一个训练的问题,训练的数据哪里来,与环境交互。最基础的DQN数据存储(s,a,r,s’)数据用于训练
DQN里面的网络是一个监督学习的过程,其目标是真实值和估计值之间的差值最小,术语叫做TD-ERROR,用公式来表示的化:
这个代表的是真实值,是的,真实值也是估计出来的,基础的DQN用target_network来选取action,同时计算这个真实值里面的Q值,然后减去需要学习网络估计出来的Q值。得到td-error
而被更新的那个原来的那个网络是根据经验被更新的网络,通过上面那个标签值和网络估计值最小利用梯度下降法来求解更新网络参数。
target_network是隔C步才更新的网络。它的存在就是为了存储一下那个被更新网络的状态。不能一边更新,一边标签值也在变吧。它本身不学习,每隔C步,学习经验的网络会把参数赋给它
还需要说的一点就是经验回放机制,也就是为什么要把经验(s,a,r,s’)存起来再随机选取来更新网络呢。
因为你跑一次,前一步和后一步是有强关联性的,所以经验回放就是为了破除这些关联性,就是学习的两条记录是独立的两条记录
边栏推荐
- 【Rust日报】2021-01-22 首份Rust月刊杂志邀请大家一起参与
- What is the real performance of CK5, the king machine of CKB?
- Pandora IOT development board learning (HAL Library) - Experiment 1 running lantern (RGB) experiment (learning notes)
- Yixian e - commerce publie un rapport trimestriel: adhérer à la R & D et à l’investissement de la marque, réaliser un développement durable et de haute qualité
- mysql数据库基础:约束、标识列
- nvm、nrm、npx使用(安装、基本命令、参数、curl、wget)
- Compétences Comb 27 @ Body sense Manipulator
- Ionic4 drag the ion reorder group component to change the item order
- ionic4 ion-reorder-group组件拖拽改变item顺序
- Leetcode question brushing (I) -- double pointer (go Implementation)
猜你喜欢
【深度学习】深度学习检测小目标常用方法
pytorch 笔记 torch.nn.BatchNorm1d
Viewing technological changes through Huawei Corps (V): smart Park
[email protected]语音模块+stm32+nfc"/>
技能梳理[email protected]语音模块+stm32+nfc
Apple's 5g chip was revealed to have failed in research and development, and the QQ password bug caused heated discussion. Wei Lai responded to the short selling rumors. Today, more big news is here
文件共享服务器
mysql数据库基础:约束、标识列
Using LVM to resize partitions
ArcGIS Pro scripting tool (5) - delete duplicates after sorting
数学知识复习:第二型曲线积分
随机推荐
【Rust日报】2021-01-23 几个新库发布
逸仙電商發布一季報:堅持研發及品牌投入,實現可持續高質量發展
Voir le changement technologique à travers la Légion Huawei (5): Smart Park
pytorch 笔记 torch.nn.BatchNorm1d
内存逃逸分析
Auto Seg-Loss: 自动损失函数设计
Go -- maximum heap and minimum heap
MATLAB image histogram equalization, namely spatial filtering
Leetcode question brushing (III) -- binary search (go Implementation)
在 sCrypt 中实现高效的椭圆曲线点加法和乘法
[rust daily] several new libraries were released on January 23, 2021
再测云原生数据库性能:PolarDB依旧最强,TDSQL-C、GaussDB变化不大
数学知识复习:第二型曲线积分
mysql数据库基础:约束、标识列
JS FAQs
Robotframework learning notes: environment installation and robotframework browser plug-in installation
Get through the supply chain Shenzhen gift show helps cross-border e-commerce find ways to break the situation
nvm、nrm、npx使用(安装、基本命令、参数、curl、wget)
Gd32 RT thread PWM drive function
智能DNA分子纳米机器人模型来了