当前位置:网站首页>蘑菇书EasyRL学习笔记
蘑菇书EasyRL学习笔记
2022-08-04 08:37:00 【wuqx_blogs】
第1章 强化学习基础
监督学习
正在上传…重新上传取消
在监督学习过程中,有两个假设:
- 输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
- 需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
1. 强化学习中上一帧与下一帧之间具有非常强的关联性,数据属于相关的时间序列数据
2. 强化学习不能获得即时反馈
正在上传…重新上传取消
3. 强化学习面临延迟奖励问题,使得其网络训练非常困难,奖励在于指导,可能会判定动作是错误的,但是无法给出正确动作指示
4. 强化学习的核心是探索 (exploration)和利用(exploitation),其中探索在于尝试新的动作,出其不意,利用在于充分利用奖励较多的动作以获得更多的奖励
边栏推荐
- 字符流与字节流的区别
- async - await
- 【论文笔记】Understanding Long Programming Languages with Structure-Aware Sparse Attention
- 解决报错: YarnScheduler: Initial job has not accepted any resources
- 金仓数据库 KDTS 迁移工具使用指南 (4. BS 版使用说明)
- 「PHP基础知识」转换数据类型
- Convert callback function to Flow
- Detailed explanation of TCP protocol
- layout manager
- 安装GBase 8c数据库集群时,报错误码:80000306,显示Dcs cluster not healthy。怎么处理错误呢?
猜你喜欢
随机推荐
金仓数据库的单节点如何转集群?
redis分布式锁的实现
金仓数据库KingbaseES客户端编程接口指南-JDBC(8. JDBC 元数据处理)
使用GBase 8c数据库的时候,遇到这种报错
Thread类的基本使用。
Recommend several methods that can directly translate PDF English documents
字符流与字节流的区别
unity2D横版游戏教程7-敌人AI死亡效果
华为设备配置VRRP与路由联动监视上行链路
研究性学习专题 3_LL(1)语法分析设计原理与实现
【虚幻引擎UE】UE5实现WEB和UE通讯思路
[NOI Simulation Competition] Paper Tiger Game (Game Theory SG Function, Long Chain Division)
spark算子讲解
Wang Shuang's Assembly Language Chapter 4: The First Program
电脑系统数据丢失了是什么原因?找回方法有哪些?
Libpq 是否支持读写分离配置
【虚幻引擎UE】UE5基于Gltf加载插件实现gltf格式骨骼动画在线/本地导入和切换
大家好,请教一个问题啊,我们通过flinkcdc把Oracle数据同步到doris,目前的问题是,只
leetcode 22.8.1 二进制加法
C Language Lectures from Scratch Part 6: Structure