当前位置:网站首页>蘑菇书EasyRL学习笔记
蘑菇书EasyRL学习笔记
2022-08-04 08:37:00 【wuqx_blogs】
第1章 强化学习基础
监督学习
正在上传…重新上传取消
在监督学习过程中,有两个假设:
- 输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
- 需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
1. 强化学习中上一帧与下一帧之间具有非常强的关联性,数据属于相关的时间序列数据
2. 强化学习不能获得即时反馈
正在上传…重新上传取消
3. 强化学习面临延迟奖励问题,使得其网络训练非常困难,奖励在于指导,可能会判定动作是错误的,但是无法给出正确动作指示
4. 强化学习的核心是探索 (exploration)和利用(exploitation),其中探索在于尝试新的动作,出其不意,利用在于充分利用奖励较多的动作以获得更多的奖励
边栏推荐
- 电脑系统数据丢失了是什么原因?找回方法有哪些?
- inject() can only be used inside setup() or functional components.
- DWB主题事实及ST数据应用层构建,220803,,
- Libpq 是否支持读写分离配置
- Redis分布式锁的应用
- JNI学习1.环境配置与简单函数实现
- Explanation of spark operator
- 「PHP基础知识」转换数据类型
- 设计信息录入界面,完成人员基本信息的录入工作,
- 【论文笔记】Delving into the Estimation Shift of Batch Normalization in a Network
猜你喜欢
随机推荐
Apache Druid 实时分析数据库入门介绍
在安装GBase 8c数据库的时候,报错显示“Host ips belong to different cluster”。这是为什么呢?有什么解决办法?
推荐几种可以直接翻译PDF英文文献的方法
千万级别的表分页查询非常慢,怎么办?
int *p = &a、p = &a、*p = a的正确理解
1161. Maximum Level Sum of a Binary Tree
解决报错: YarnScheduler: Initial job has not accepted any resources
高等代数_证明_对称矩阵属于不同特征值的特征向量正交
此时已莺飞草长,愿世间美好与你环环相扣
unity3d-Animation&&Animator接口(基本使用)
JNI学习1.环境配置与简单函数实现
金仓数据库KingbaseES客户端编程接口指南-JDBC(5. JDBC 查询结果集处理)
Yolov5 replaces the backbone network of "Megvii Lightweight Convolutional Neural Network ShuffleNetv2"
inject() can only be used inside setup() or functional components.
【论文笔记】Understanding Long Programming Languages with Structure-Aware Sparse Attention
IDEA引入类报错:“The file size (2.59 MB) exceeds the configured limit (2.56MB)
(三)DDD上下文映射图——老师,我俩可是纯洁的男女关系!
unittest使用简述
unity2D横版游戏教程7-敌人AI死亡效果
inject() can only be used inside setup() or functional components.