当前位置:网站首页>Double-DQN笔记
Double-DQN笔记
2022-06-30 10:05:00 【显哥无敌】
double-dqn是dqn比较著名的变种,他主要解决的一个问题是在之前的DQN公式中,我们用网络估计出来的Q值比Q值的实际值要高很多,也就是著名的过估计问题。
先说一下什么是过估计,看过张斯俊大神这一篇的就会知道
https://zhuanlan.zhihu.com/p/109498587
Q值最最最保真的值,也就是他的定义式,应该是由这个动作引发的直接一步后续所有可能状态的期望,但是我们不可能说等到所有状态都迭代好了以后再去求这个Q值。
所以在Q-Learning阶段我们就选用了下一个state最大Q值的那个动作来更新Q表,这也就是为啥会产生过估计。
也就是说这个过估计其实是Q-Learning带给它的,double-dqn做的是一个事情是它用target来求Q值,但这个选择的动作不由Q-target给,他由那个在实时学习的网络来给出Q值最大的动作,用Q-Target给出Q值,这样做的好处是经过迭代学习以后,Q-target和Q-估计选出的动作不是同一个动作,那么就一定概率上降低了过估计的问题。
边栏推荐
- 机器学习面试准备(一)KNN
- 在 sCrypt 中实现高效的椭圆曲线点加法和乘法
- Apple's 5g chip was revealed to have failed in research and development, and the QQ password bug caused heated discussion. Wei Lai responded to the short selling rumors. Today, more big news is here
- 无心剑中译狄金森《灵魂择其伴侣》
- 技能梳理[email protected]体感机械臂
- pytorch 笔记:validation ,model.eval V.S torch.no_grad
- 潘多拉 IOT 开发板学习(HAL 库)—— 实验1 跑马灯(RGB)实验(学习笔记)
- 程序员需知的 59 个网站
- Es common curl finishing
- 【Rust日报】2021-01-22 首份Rust月刊杂志邀请大家一起参与
猜你喜欢

同事的接口文档我每次看着就头大,毛病多多。。。

那个程序员,被打了。

在 sCrypt 中实现高效的椭圆曲线点加法和乘法

Yixian e - commerce publie un rapport trimestriel: adhérer à la R & D et à l’investissement de la marque, réaliser un développement durable et de haute qualité

Machine learning interview preparation (I) KNN

Android 开发面试真题进阶版(附答案解析)

Test memory read rate

Auto SEG loss: automatic loss function design
[email protected] voice module +stm32+nfc"/>Skill combing [email protected] voice module +stm32+nfc

Go -- maximum heap and minimum heap
随机推荐
R语言plotly可视化:使用plotly可视化多分类模型的预测置信度、模型在2D网格中每个数据点预测的置信度、置信度定义为在某一点上最高分与其他类别得分之和之间的差值
SGD has many improved forms. Why do most papers still use SGD?
技能梳理[email protected]在oled上控制一条狗的奔跑
六月集训(第30天) —— 拓扑排序
The human agent of kDa, Jinbei kd6, takes you to explore the metauniverse
Use keil5 software to simulate and debug gd32f305 from 0
Harvester ch1 of CKB and HNS, connection tutorial analysis
敏捷开发: 超级易用水桶估计系统
Google 辟谣放弃 TensorFlow,它还活着!
Remember the experience of an internship. It is necessary to go to the pit (I)
go-zero微服务实战系列(八、如何处理每秒上万次的下单请求)
The performance of arm's new CPU has been improved by 22%, up to 12 cores can be combined, and the GPU is first equipped with hardware optical tracking. Netizen: the gap with apple is growing
Jinbei LT6 is powerful in the year of the tiger, making waves
GD32 RT-Thread OTA/Bootloader驱动函数
逸仙電商發布一季報:堅持研發及品牌投入,實現可持續高質量發展
& and - > priority
半钢同轴射频线的史密斯圆图查看和网络分析仪E5071C的射频线匹配校准
JS FAQs
Who should the newly admitted miners bow to in front of the chip machine and the graphics card machine
matplotlib 笔记: contourf & contour