当前位置:网站首页>蘑菇书EasyRL学习笔记
蘑菇书EasyRL学习笔记
2022-08-04 08:37:00 【wuqx_blogs】
第1章 强化学习基础

监督学习

正在上传…重新上传取消
在监督学习过程中,有两个假设:
- 输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
- 需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
1. 强化学习中上一帧与下一帧之间具有非常强的关联性,数据属于相关的时间序列数据
2. 强化学习不能获得即时反馈

正在上传…重新上传取消
3. 强化学习面临延迟奖励问题,使得其网络训练非常困难,奖励在于指导,可能会判定动作是错误的,但是无法给出正确动作指示
4. 强化学习的核心是探索 (exploration)和利用(exploitation),其中探索在于尝试新的动作,出其不意,利用在于充分利用奖励较多的动作以获得更多的奖励
边栏推荐
- 经典动态规划问题的递归实现方法——LeetCode39 组合总和
- 【论文笔记】Delving into the Estimation Shift of Batch Normalization in a Network
- 最近的一些杂感-20220731
- 线程的状态
- ShuffleNet v2 network structure reproduction (Pytorch version)
- [STM32] STM32F103 series name and package, memory
- 布局管理器
- 如何从PG导入数据到kingbaseES
- IDEA引入类报错:“The file size (2.59 MB) exceeds the configured limit (2.56MB)
- 关于Oracle RAC 11g重建磁盘组的问题
猜你喜欢
随机推荐
高等代数_证明_幂等矩阵一定能够相似对角化
csdn图片去水印 | 其他方法无效时的解决方案
How many assertion methods are commonly used in JMeter?
解决报错: YarnScheduler: Initial job has not accepted any resources
【UE虚幻引擎】UE5三步骤实现AI漫游与对话行为
为什么手动启动GBase 8c数据库中GTM节点,起不来。显示“Run cmd failed:scp: /tmp/gtm_gtm1.server: Permission denied”
About Oracle RAC 11g rebuilding the disk group
如何设计一个注册中心
inject() can only be used inside setup() or functional components.
js异步变同步、同步变异步
阿里云的数据库系统怎么升级更新的www.zgysffm.com怎么加快访问速度?
尚医通【预约挂号系统】总结
【论文笔记】Delving into the Estimation Shift of Batch Normalization in a Network
秒懂大模型 | 3步搞定AI写摘要
【虚幻引擎UE】UE5实现WEB和UE通讯思路
BFM模型和Landmarks可视化
[STM32] STM32F103 series name and package, memory
『递归』递归概念与典型实例
金仓数据库 KDTS 迁移工具使用指南 (5. SHELL版使用说明)
Shared_preload_libraries导致很多语法不支持









