当前位置:网站首页>RL强化学习总结(一)
RL强化学习总结(一)
2022-08-05 04:59:00 【时代&信念】
最近总结一下强化学习的知识点,听的是唐宇迪博士的课程,下面我将用自己的话语和理解进行表述!!!
1. 强化学习概述
强化学习,英文全称Reinforcement Learning,简称RL。
引言
想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习,阿尔法狗通过大量学习世界上的棋谱,将判定下棋时每一步状态的最佳选择(选择当前状态中,奖励值最大的那一步)。
主要机理
强化学习是与环境不断交互,面临选择时,选择之后,如果效果比较好,会进行奖励;效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时,优先选择奖励值大的选择,从而达到不断学习的目的!
2.强化学习基本概念
基本概念
(1)agent:中文翻译过来为智能体,就是我们模型中将要学习和被操作的对象。例如:自动驾驶中的汽车。
(2)state:中午翻译过来为状态,就是当前智能体所处的周围情况和状态。例如:阿尔法狗与李世石下棋时,此时落子时棋盘上已经落了子的黑白棋子所处位置和分布情况;自动驾驶汽车此时在路的哪个位置。
(3)action:中文翻译过来为行为,就是在当前状态下,智能体将要采取的下一步是什么。例如:阿尔法狗将要在棋盘的哪个位置落子;自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为(直走,左拐,右拐…)
(4)reward:中文翻译过来为奖励,奖励包括正向奖励也简称奖励,还包括负奖励也叫做惩罚。就是当前智能体采取行为之后,会得到怎样的反馈。例如:自动驾驶的汽车,行驶离目的地越来越近,进行奖励;与周围建筑物、车辆等发生了碰撞,进行惩罚。通过奖励和惩罚,“教”智能体去学习!!!
(5)policy:中文翻译过来为策略,就是为了达到我最终的目的,采取怎样的一系列行为,称作是策略。
强化学习过程
智能体在采取行动前,会先进行观察。最开始会进行不同的选择,与环境交互之后(进行奖励和惩罚),学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…
如上图所示,简而言之就是:智能体不断与环境交互,环境对智能进行奖励和惩罚,从而改变智能体状态。
进行反复循环,推动智能体向着状态变化(奖励值大的方向)移动。
例子
这个车,采取行动(向左或者向右移动)之后,通过奖励措施,不断修改自身的状态(杆的角度和速度)
边栏推荐
- 说说数据治理中常见的20个问题
- No regrets, the appium automation environment is perfectly built
- Analyses the mainstream across technology solutions
- Why did you start preparing for the soft exam just after the PMP exam?
- Some conventional routines of program development (1)
- App rapid development and construction experience: the importance of small programs + custom plug-ins
- uboot enable debug printing information
- 【cesium】Load and locate 3D Tileset
- jvm 三 之堆与栈
- 【 8.4 】 source code - [math] [calendar] [delete library 】 【 is not a simple sequence (Bonus) 】
猜你喜欢
Use IDEA to connect to TDengine server
[MRCTF2020] Ezpop (detailed)
特征预处理
AUTOCAD——标注关联
Day019 Method overriding and introduction of related classes
Please write the SparkSQL statement
Visibility of multi-column attribute column elements: display, visibility, opacity, vertical alignment: vertical-align, z-index The larger it is, the more it will be displayed on the upper layer
[cesium] 3D Tileset model is loaded and associated with the model tree
虚证、实证如何鉴别?
ESP32 485光照度
随机推荐
雷克萨斯lm的安全性到底体现在哪里?一起来看看吧
The log causes these pits in the thread block, you have to guard against
MySQL Foundation (1) - Basic Cognition and Operation
淘宝账号如何快速提升到更高等级
二叉树基本性质+oj题解析
u-boot中的u-boot,dm-pre-reloc
u-boot调试定位手段
为什么刚考完PMP,就开始准备软考了?
How to solve complex distribution and ledger problems?
Cron(Crontab)--use/tutorial/example
University Physics---Particle Kinematics
What is ASEMI photovoltaic diode, the role of photovoltaic diode
How does the Flutter TapGestureRecognizer work
延迟加载js方式async与defer区别
LeetCode:1403. 非递增顺序的最小子序列【贪心】
人性的弱点
关于sklearn库的安装
Flutter学习4-基本UI组件
Some conventional routines of program development (1)
Visibility of multi-column attribute column elements: display, visibility, opacity, vertical alignment: vertical-align, z-index The larger it is, the more it will be displayed on the upper layer