当前位置:网站首页>Sarsa笔记
Sarsa笔记
2022-06-30 10:05:00 【显哥无敌】
首先要讲的是,sarsa也是一种基于TD的算法,他与Q-LEARNING唯一的不同是那个target_policy,或者说更新Q值的方式,之前Q-learning是选取执行动作后下一个state,当前Q表里值最大的值。
而Sarsa他与Q-Learning不同的一点就是它也是根据epilson-greedy的方式取选取要执行的下一步动作,并把这个动作的Q值代入公式里去更新Q表。
值得说明的是,这个动作并没有被执行,他也是Q表里估计的值,只不过选出来的动作不同罢了,我看莫凡视频的时候它讲的是sarsa是行动派,我当时以为是sarsa执行了这个action,是基于MC的方法,后来发现我错了,这可能也是我自己的一个误区吧。
这样一看sarsa算法流程不要太简单:
边栏推荐
- Go -- maximum heap and minimum heap
- CVPR 2022 | 清华&字节&京东提出BrT:用于视觉和点云3D目标检测的桥接Transformer
- 技能梳理[email protected]语音模块+stm32+nfc
- 安徽《合肥市装配式建筑施工图审查设计深度要求》印发;河北衡水市调整装配式建筑预售许可标准
- mysql数据库基础:存储过程和函数
- Foster design method
- 历史上的今天:微软收购 PowerPoint 开发商;SGI 和 MIPS 合并
- Gd32 RT thread PWM drive function
- The latest SCI impact factor release: the highest score of domestic journals is 46! Netizen: I understand if
- 【Proteus仿真】Arduino UNO LED模拟交通灯
猜你喜欢
随机推荐
微信推出图片大爆炸功能;苹果自研 5G 芯片或已失败;微软解决导致 Edge 停止响应的 bug|极客头条...
历史上的今天:微软收购 PowerPoint 开发商;SGI 和 MIPS 合并
透过华为军团看科技之变(五):智慧园区
【深度学习】深度学习检测小目标常用方法
Skill combing [email protected] somatosensory manipulator
Tooltips in the era of touch
Leetcode question brushing (I) -- double pointer (go Implementation)
& and - > priority
The performance of arm's new CPU has been improved by 22%, up to 12 cores can be combined, and the GPU is first equipped with hardware optical tracking. Netizen: the gap with apple is growing
Overview of currency
Viewing technological changes through Huawei Corps (V): smart Park
R语言aov函数进行重复测量方差分析(Repeated measures ANOVA、其中一个组内因素和一个组间因素)、分别使用interaction.plot函数和boxplot对交互作用进行可视化
我的远程办公深度体验 | 社区征文
TypeScript–es5中的类,继承,静态方法
Gd32 RT thread PWM drive function
Eth is not connected to the ore pool
【Rust日报】2021-01-22 首份Rust月刊杂志邀请大家一起参与
Getting started with X86 - take over bare metal control
CSDN daily one practice 2021.11.06 question 1 (C language)
Who should the newly admitted miners bow to in front of the chip machine and the graphics card machine