当前位置:网站首页>RL强化学习总结(一)
RL强化学习总结(一)
2022-08-05 04:59:00 【时代&信念】
最近总结一下强化学习的知识点,听的是唐宇迪博士的课程,下面我将用自己的话语和理解进行表述!!!
1. 强化学习概述
强化学习,英文全称Reinforcement Learning,简称RL。
引言
想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习,阿尔法狗通过大量学习世界上的棋谱,将判定下棋时每一步状态的最佳选择(选择当前状态中,奖励值最大的那一步)。
主要机理
强化学习是与环境不断交互,面临选择时,选择之后,如果效果比较好,会进行奖励;效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时,优先选择奖励值大的选择,从而达到不断学习的目的!
2.强化学习基本概念
基本概念
(1)agent:中文翻译过来为智能体,就是我们模型中将要学习和被操作的对象。例如:自动驾驶中的汽车。
(2)state:中午翻译过来为状态,就是当前智能体所处的周围情况和状态。例如:阿尔法狗与李世石下棋时,此时落子时棋盘上已经落了子的黑白棋子所处位置和分布情况;自动驾驶汽车此时在路的哪个位置。
(3)action:中文翻译过来为行为,就是在当前状态下,智能体将要采取的下一步是什么。例如:阿尔法狗将要在棋盘的哪个位置落子;自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为(直走,左拐,右拐…)
(4)reward:中文翻译过来为奖励,奖励包括正向奖励也简称奖励,还包括负奖励也叫做惩罚。就是当前智能体采取行为之后,会得到怎样的反馈。例如:自动驾驶的汽车,行驶离目的地越来越近,进行奖励;与周围建筑物、车辆等发生了碰撞,进行惩罚。通过奖励和惩罚,“教”智能体去学习!!!
(5)policy:中文翻译过来为策略,就是为了达到我最终的目的,采取怎样的一系列行为,称作是策略。
强化学习过程

智能体在采取行动前,会先进行观察。最开始会进行不同的选择,与环境交互之后(进行奖励和惩罚),学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…
如上图所示,简而言之就是:智能体不断与环境交互,环境对智能进行奖励和惩罚,从而改变智能体状态。
进行反复循环,推动智能体向着状态变化(奖励值大的方向)移动。
例子
这个车,采取行动(向左或者向右移动)之后,通过奖励措施,不断修改自身的状态(杆的角度和速度)
边栏推荐
猜你喜欢

flink reads mongodb data source

Paparazzi: Surface Editing by way of Multi-View Image Processing

u-boot debugging and positioning means

C+ +核心编程
![[SWPU2019]Web1](/img/06/36e69a2d7d5475a6749a7d81edf50f.png)
[SWPU2019]Web1

4T硬盘剩余很多提示“No space left on device“磁盘空间不足

No regrets, the appium automation environment is perfectly built

Redis哨兵模式配置文件详解

Flutter 父子组件如何都能收到点击事件

Learning and finishing of probability theory 8: Geometric and hypergeometric distributions
随机推荐
There are a lot of 4T hard drives remaining, prompting "No space left on device" insufficient disk space
dedecms报错The each() function is deprecated
bytebuffer use demo
作业8.4 进程间的通信 管道与信号
WPF中DataContext作用
AUTOCAD——标注关联
uboot开启调试打印信息
Mysql的redo log详解
Understanding and use of C# on set() and get() methods
Redis哨兵模式配置文件详解
【无标题】
[BSidesCF 2019] Kookie
A 35-year-old software testing engineer with a monthly salary of less than 2W, resigns and is afraid of not finding a job, what should he do?
LeetCode:1403. 非递增顺序的最小子序列【贪心】
说说数据治理中常见的20个问题
for..in和for..of的区别
Flutter 父子组件如何都能收到点击事件
为什么刚考完PMP,就开始准备软考了?
After controlling the export file in MySQL, it becomes \N. Is there any solution?
Cron(Crontab)--使用/教程/实例