当前位置:网站首页>蘑菇书EasyRL学习笔记
蘑菇书EasyRL学习笔记
2022-08-04 08:37:00 【wuqx_blogs】
第1章 强化学习基础

监督学习

正在上传…重新上传取消
在监督学习过程中,有两个假设:
- 输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
- 需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
1. 强化学习中上一帧与下一帧之间具有非常强的关联性,数据属于相关的时间序列数据
2. 强化学习不能获得即时反馈

正在上传…重新上传取消
3. 强化学习面临延迟奖励问题,使得其网络训练非常困难,奖励在于指导,可能会判定动作是错误的,但是无法给出正确动作指示
4. 强化学习的核心是探索 (exploration)和利用(exploitation),其中探索在于尝试新的动作,出其不意,利用在于充分利用奖励较多的动作以获得更多的奖励
边栏推荐
猜你喜欢

【高并发基石】多线程、守护线程、线程安全、线程同步、互斥锁

binder通信实现

【论文笔记】Delving into the Estimation Shift of Batch Normalization in a Network

DNS 查询原理详解—— 阮一峰的网络日志

尚医通【预约挂号系统】总结

从底层看 Redis 的五种数据类型

【电脑录制屏】如何使用bandicam录游戏 设置图文教程
![[NOI Simulation Competition] Paper Tiger Game (Game Theory SG Function, Long Chain Division)](/img/b7/21f82453576b81e64dafbc3975125f.png)
[NOI Simulation Competition] Paper Tiger Game (Game Theory SG Function, Long Chain Division)

技术实现 | 图像检索及其在淘宝的应用

【论文笔记】Dynamic Convolution: Attention over Convolution Kernels
随机推荐
layout manager
【我想要老婆】
最近的一些杂感-20220731
2022-08-02 分析RK817 输出32k clock PMIC_32KOUT_WIFI给WiFi模块 clock 注册devm_clk_hw_register
oracle sql 多表查询
unittest使用简述
js异步变同步、同步变异步
【UE虚幻引擎】UE5实现动态导航样条线绘制
大家好,请教一个问题啊,我们通过flinkcdc把Oracle数据同步到doris,目前的问题是,只
智能健身动作识别:PP-TinyPose打造AI虚拟健身教练!
线程安全问题
经典二分法查找的进阶题目——LeetCode33 搜索旋转排序数组
Apache Druid 实时分析数据库入门介绍
【STM32】STM32F103系列名称与封装、内存
js-第一个出现两次的字母
int *p = &a、p = &a、*p = a的正确理解
新特性解读 | MySQL 8.0 在线调整 REDO
如何从PG导入数据到kingbaseES
发现WRH几个表被锁了,怎么办?
使用GBase 8c数据库的时候,遇到这种报错