当前位置:网站首页>Double-DQN笔记
Double-DQN笔记
2022-06-30 10:05:00 【显哥无敌】
double-dqn是dqn比较著名的变种,他主要解决的一个问题是在之前的DQN公式中,我们用网络估计出来的Q值比Q值的实际值要高很多,也就是著名的过估计问题。
先说一下什么是过估计,看过张斯俊大神这一篇的就会知道
https://zhuanlan.zhihu.com/p/109498587
Q值最最最保真的值,也就是他的定义式,应该是由这个动作引发的直接一步后续所有可能状态的期望,但是我们不可能说等到所有状态都迭代好了以后再去求这个Q值。
所以在Q-Learning阶段我们就选用了下一个state最大Q值的那个动作来更新Q表,这也就是为啥会产生过估计。
也就是说这个过估计其实是Q-Learning带给它的,double-dqn做的是一个事情是它用target来求Q值,但这个选择的动作不由Q-target给,他由那个在实时学习的网络来给出Q值最大的动作,用Q-Target给出Q值,这样做的好处是经过迭代学习以后,Q-target和Q-估计选出的动作不是同一个动作,那么就一定概率上降低了过估计的问题。
边栏推荐
- CVPR 2022 | Tsinghua & bytek & JD put forward BRT: Bridging Transformer for vision and point cloud 3D target detection
- Arm新CPU性能提升22%,最高可组合12核,GPU首配硬件光追,网友:跟苹果的差距越来越大了...
- Didi open source agile test case management platform!
- Circuit breaker hystrixcircuitbreaker
- ArcGIS Pro脚本工具(5)——排序后删除重复项
- 技能梳理[email protected]体感机械臂
- mysql数据库基础:视图、变量
- 转卡通学习笔记
- My in-depth remote office experience | community essay solicitation
- GeoffreyHinton:我的五十年深度学习生涯与研究心法
猜你喜欢
ArcGIS Pro + PS 矢量化用地规划图
透過華為軍團看科技之變(五):智慧園區
Harvester ch1 of CKB and HNS, connection tutorial analysis
微信推出图片大爆炸功能;苹果自研 5G 芯片或已失败;微软解决导致 Edge 停止响应的 bug|极客头条...
Criu enables hot migration
马斯克推特粉丝过亿了,但他在线失联已一周
mysql数据库基础:约束、标识列
sCrypt 中的 ECDSA 签名验证
最新SCI影响因子公布:国产期刊最高破46分!网友:算是把IF玩明白了
[email protected]体感机械臂"/>
技能梳理[email protected]体感机械臂
随机推荐
ArcGIS Pro scripting tool (6) -- repairing CAD layer data sources
ArcGIS Pro脚本工具(6)——修复CAD图层数据源
Foster design method
技能梳理[email protected]體感機械臂
同事的接口文档我每次看着就头大,毛病多多。。。
Gd32 RT thread RTC driver function
潘多拉 IOT 开发板学习(HAL 库)—— 实验1 跑马灯(RGB)实验(学习笔记)
逸仙電商發布一季報:堅持研發及品牌投入,實現可持續高質量發展
【Rust日报】2021-01-22 首份Rust月刊杂志邀请大家一起参与
ArcGIS PRO + PS vectorized land use planning map
无心剑中译狄金森《灵魂择其伴侣》
透过华为军团看科技之变(五):智慧园区
吴恩达2022机器学习专项课测评来了!
Curl --- the request fails when the post request parameter is too long (more than 1024b)
前嗅ForeSpider教程:抽取数据
Enter the world of helium (hNT) hotspot servers to bring you different benefits
技能梳理[email protected]在oled上控制一条狗的奔跑
记一次实习的经历,趟坑必备(一)
GD32 RT-Thread PWM驱动函数
【Rust每周一库】num-bigint - 大整数