当前位置:网站首页>强化学习:从入门到入坑再到拉屎
强化学习:从入门到入坑再到拉屎
2022-07-31 03:52:00 【航空界的小爬虫】
本文资料来源于学习视频: 强化学习方法汇总 (Reinforcement Learning)_哔哩哔哩_bilibili
1、什么是强化学习
强化学习(Reinforcement Learning, RL)也有很多其他名字,例如再励学习、增强学习、评价学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
我们一般所说的强化学习其实是深度强化学习(Deep Reinforcement Learning DRL),深度强化学习是强化学习与深度学习结合的结果。顾名思义,就是将传统强化学习中的某一部分用深度学习来完成。

上图为经典的强化学习结构图,从图片中可以看出,强化学习过程主要由4部分构成:智能体(agent)、观测到的状态(observation/state)、奖励(reward)和行为(action)。
智能体在不断与环境交互的过程中,会保留上次学习过的经验,下一轮与环境交互时,会选择奖励更大的行为,一般用来解决“智能体与环境交互时通过决策选择最好的行为”的这一类问题。
与其他机器学习方法的区别
这里其他机器学习方法主要是监督学习和无监督学习,也是我们在理解强化学习的过程中最容易发生混淆的地方。
监督学习是机器学习领域研究最多的方法,已经十分成熟,在监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常指代正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在未知标签的样本上能够计算出一个尽可能正确的结果,例如我们熟悉的分类与回归问题。在强化学习中的交互问题中却并不存在这样一个普适正确的“标签”,智能体只能从自身的经验中去学习。
但是强化学习与同样没有标签的无监督学习也不太一样,无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。
因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习范式。

2、分类方式
算法

分类 1

基于概率的方法选择,不一定选择概率最高的(适用于连续的动作值)
基于价值的方法选择最高价值的动作(决策更坚决)(不适用于连续的动作值)

分类 2


分类3


分类4



边栏推荐
猜你喜欢

IDEA common shortcut keys and plug-ins

A brief introduction to the CheckboxListTile component of the basic components of Flutter

No qualifying bean of type 问题

【论文阅读】Mastering the game of Go with deep neural networks and tree search

IIR filter and FIR filter
![[C language] Preprocessing operation](/img/69/0aef065ae4061edaf0d96b89846bf2.png)
[C language] Preprocessing operation

Learning DAVID Database (1)

Ambiguous method call.both

The BP neural network

Understanding and Using Unity2D Custom Scriptable Tiles (4) - Start to build a custom tile based on the Tile class (below)
随机推荐
qlib架构
[Swift]自定义点击APP图标弹出的快捷方式
Redis 使用LIST做最新评论缓存
【小土堆补充】Pytorch学习笔记_Anaconda虚拟环境使用
安全20220715
浅识Flutter 基本组件之CheckBox组件
type_traits元编程库学习
binom二项分布,
Use of QML
(五)final、抽象类、接口、内部类
日志级别 和 打印log注意
"A daily practice, happy water problem" 1331. Array serial number conversion
BUG definition of SonarQube
「 每日一练,快乐水题 」1331. 数组序号转换
Mysql 45 study notes (23) How does MYSQL ensure that data is not lost
Thinking about data governance after Didi fines
进程间通信
A brief introduction to the CheckBox component of the basic components of Flutter
数据库实现分布式锁
分布式锁以及实现方式三种