当前位置:网站首页>强化学习:从入门到入坑再到拉屎
强化学习:从入门到入坑再到拉屎
2022-07-31 03:52:00 【航空界的小爬虫】
本文资料来源于学习视频: 强化学习方法汇总 (Reinforcement Learning)_哔哩哔哩_bilibili
1、什么是强化学习
强化学习(Reinforcement Learning, RL)也有很多其他名字,例如再励学习、增强学习、评价学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。
我们一般所说的强化学习其实是深度强化学习(Deep Reinforcement Learning DRL),深度强化学习是强化学习与深度学习结合的结果。顾名思义,就是将传统强化学习中的某一部分用深度学习来完成。
上图为经典的强化学习结构图,从图片中可以看出,强化学习过程主要由4部分构成:智能体(agent)、观测到的状态(observation/state)、奖励(reward)和行为(action)。
智能体在不断与环境交互的过程中,会保留上次学习过的经验,下一轮与环境交互时,会选择奖励更大的行为,一般用来解决“智能体与环境交互时通过决策选择最好的行为”的这一类问题。
与其他机器学习方法的区别
这里其他机器学习方法主要是监督学习和无监督学习,也是我们在理解强化学习的过程中最容易发生混淆的地方。
监督学习是机器学习领域研究最多的方法,已经十分成熟,在监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常指代正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在未知标签的样本上能够计算出一个尽可能正确的结果,例如我们熟悉的分类与回归问题。在强化学习中的交互问题中却并不存在这样一个普适正确的“标签”,智能体只能从自身的经验中去学习。
但是强化学习与同样没有标签的无监督学习也不太一样,无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。
因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习范式。
2、分类方式
算法
分类 1
基于概率的方法选择,不一定选择概率最高的(适用于连续的动作值)
基于价值的方法选择最高价值的动作(决策更坚决)(不适用于连续的动作值)
分类 2
分类3
分类4
边栏推荐
- [Swift] Customize the shortcut that pops up by clicking the APP icon
- The use of beforeDestroy and destroyed
- Detailed explanation of TCP and UDP
- els 方块向右移
- Safety 20220715
- Summary of Huawei Distributed Storage FusionStorage Knowledge Points [Interview]
- type_traits metaprogramming library learning
- Database implements distributed locks
- 日志级别 和 打印log注意
- endian mode
猜你喜欢
立足本土,链接全球 | 施耐德电气“工业SI同盟”携手伙伴共赴未来工业
Port inspection steps - 7680 port analysis - Dosvc service
【小土堆补充】Pytorch学习笔记_Anaconda虚拟环境使用
[C language] Three-pointed chess (classic solution + list diagram)
Daily practice of LeetCode - palindrome structure of OR36 linked list
【Exception】The field file exceeds its maximum permitted size of 1048576 bytes.
Zotero如何删除自动生成的标签
Notes on the establishment of the company's official website (6): The public security record of the domain name is carried out and the record number is displayed at the bottom of the web page
Unity2D 自定义Scriptable Tiles的理解与使用(四)——开始着手构建一个基于Tile类的自定义tile(下)
安全20220712
随机推荐
PMP WeChat group daily exercises
Automation strategies for legacy systems
【AUTOSAR-RTE】-4-Port and Interface and Data Type
Learning DAVID Database (1)
日志级别 和 打印log注意
LocalDate加减操作及比较大小
C language from entry to such as soil, the data store
Component pass value provide/inject
type_traits metaprogramming library learning
type_traits元编程库学习
SocialFi 何以成就 Web3 去中心化社交未来
Good place to download jar packages
Implementation of a sequence table
【SemiDrive源码分析】【MailBox核间通信】44 - 基于Mailbox IPCC RPC 实现核间通信(RTOS侧 IPCC_RPC Server 消息接收及回复 原理分析篇)
端口排查步骤-7680端口分析-Dosvc服务
No qualifying bean of type 问题
Difference between unallocated blocks and unused blocks in database files
LocalDate addition and subtraction operations and comparison size
自己的一些思考
Redis 使用LIST做最新评论缓存