当前位置:网站首页>蘑菇书EasyRL学习笔记
蘑菇书EasyRL学习笔记
2022-08-04 08:37:00 【wuqx_blogs】
第1章 强化学习基础
监督学习
正在上传…重新上传取消
在监督学习过程中,有两个假设:
- 输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
- 需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
1. 强化学习中上一帧与下一帧之间具有非常强的关联性,数据属于相关的时间序列数据
2. 强化学习不能获得即时反馈
正在上传…重新上传取消
3. 强化学习面临延迟奖励问题,使得其网络训练非常困难,奖励在于指导,可能会判定动作是错误的,但是无法给出正确动作指示
4. 强化学习的核心是探索 (exploration)和利用(exploitation),其中探索在于尝试新的动作,出其不意,利用在于充分利用奖励较多的动作以获得更多的奖励
边栏推荐
- C# DirectoryInfo类
- 2022-08-02 分析RK817 输出32k clock PMIC_32KOUT_WIFI给WiFi模块 clock 注册devm_clk_hw_register
- 推荐几种可以直接翻译PDF英文文献的方法
- How to import data from PG to kingbaseES
- It is found that several WRH tables are locked, what should I do?
- 【电脑录制屏】如何使用bandicam录游戏 设置图文教程
- 【UE虚幻引擎】UE5三步骤实现AI漫游与对话行为
- 力扣 剑指 Offer 04. 二维数组中的查找
- ShowMeAI —— Show u 三连
- 最近的一些杂感-20220731
猜你喜欢
随机推荐
Typora_Markdown_图片标题(题注)
关于#sql#的问题:后面换了一个数据库里面的数据就不能跑了
Recommend several methods that can directly translate PDF English documents
设计信息录入界面,完成人员基本信息的录入工作,
ShuffleNet v2 network structure reproduction (Pytorch version)
form表单提交到数据库储存
Detailed explanation of TCP protocol
研究性学习专题 3_LL(1)语法分析设计原理与实现
线程安全问题
It is found that several WRH tables are locked, what should I do?
ShuffleNet v2网络结构复现(Pytorch版)
秒懂大模型 | 3步搞定AI写摘要
大家好,请教一个问题啊,我们通过flinkcdc把Oracle数据同步到doris,目前的问题是,只
yolo x 跑起来,详细的不行,且内含800错误解决办法
预测性维护学习之路
DNS 查询原理详解—— 阮一峰的网络日志
Occupy, fill in later
[NOI Simulation Competition] Paper Tiger Game (Game Theory SG Function, Long Chain Division)
高等代数_证明_两个矩阵乘积为0,则两个矩阵的秩之和小于等于n
IntelliJ新建一个类或者包的快捷键是什么?