当前位置:网站首页>强化学习:从入门到入坑再到拉屎
强化学习:从入门到入坑再到拉屎
2022-07-31 03:52:00 【航空界的小爬虫】
本文资料来源于学习视频: 强化学习方法汇总 (Reinforcement Learning)_哔哩哔哩_bilibili
1、什么是强化学习
强化学习(Reinforcement Learning, RL)也有很多其他名字,例如再励学习、增强学习、评价学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
我们一般所说的强化学习其实是深度强化学习(Deep Reinforcement Learning DRL),深度强化学习是强化学习与深度学习结合的结果。顾名思义,就是将传统强化学习中的某一部分用深度学习来完成。
上图为经典的强化学习结构图,从图片中可以看出,强化学习过程主要由4部分构成:智能体(agent)、观测到的状态(observation/state)、奖励(reward)和行为(action)。
智能体在不断与环境交互的过程中,会保留上次学习过的经验,下一轮与环境交互时,会选择奖励更大的行为,一般用来解决“智能体与环境交互时通过决策选择最好的行为”的这一类问题。
与其他机器学习方法的区别
这里其他机器学习方法主要是监督学习和无监督学习,也是我们在理解强化学习的过程中最容易发生混淆的地方。
监督学习是机器学习领域研究最多的方法,已经十分成熟,在监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常指代正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在未知标签的样本上能够计算出一个尽可能正确的结果,例如我们熟悉的分类与回归问题。在强化学习中的交互问题中却并不存在这样一个普适正确的“标签”,智能体只能从自身的经验中去学习。
但是强化学习与同样没有标签的无监督学习也不太一样,无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。
因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习范式。
2、分类方式
算法
分类 1
基于概率的方法选择,不一定选择概率最高的(适用于连续的动作值)
基于价值的方法选择最高价值的动作(决策更坚决)(不适用于连续的动作值)
分类 2
分类3
分类4
边栏推荐
- "A daily practice, happy water problem" 1331. Array serial number conversion
- (4) Recursion, variable parameters, access modifiers, understanding main method, code block
- Safety 20220712
- 【论文阅读】Mastering the game of Go with deep neural networks and tree search
- Difference between unallocated blocks and unused blocks in database files
- Web container and IIS --- Middleware penetration method 1
- log level and print log note
- (八)Math 类、Arrays 类、System类、Biglnteger 和 BigDecimal 类、日期类
- Point Cloud DBSCAN Clustering (MATLAB, not built-in function)
- Day32 LeetCode
猜你喜欢
Mysql 45 study notes (twenty-five) MYSQL guarantees high availability
Detailed explanation of TCP (2)
安全20220712
binom二项分布,
What skills do I need to learn to move from manual testing to automated testing?
[C language] Three-pointed chess (classic solution + list diagram)
No qualifying bean of type 问题
(八)Math 类、Arrays 类、System类、Biglnteger 和 BigDecimal 类、日期类
Use of QML
(五)final、抽象类、接口、内部类
随机推荐
LeetCode simple problem to find the subsequence of length K with the largest sum
安全20220722
Redis 统计用户新增和留存
Based on the local, linking the world | Schneider Electric "Industrial SI Alliance" joins hands with partners to go to the future industry
Web container and IIS --- Middleware penetration method 1
C language from entry to such as soil, the data store
【SemiDrive源码分析】【MailBox核间通信】44 - 基于Mailbox IPCC RPC 实现核间通信(RTOS侧 IPCC_RPC Server 消息接收及回复 原理分析篇)
(五)final、抽象类、接口、内部类
Redis 使用LIST做最新评论缓存
LocalDate addition and subtraction operations and comparison size
Summary of Huawei Distributed Storage FusionStorage Knowledge Points [Interview]
Why don't you programmers make a living off your own projects?And have to work for someone else?
Redis 使用 sorted set 做最新评论缓存
ClickHouse:设置远程连接
How to develop a high-quality test case?
Pytest电商项目实战(上)
[Compilation principle] Design principle and implementation of recursive descent parsing
(8) Math class, Arrays class, System class, Biglnteger and BigDecimal classes, date class
(6) Enumeration and annotation
Day32 LeetCode