当前位置：网站首页>RL强化学习总结（一）

RL强化学习总结（一）

2022-08-05 04:59:00 【时代＆信念】

最近总结一下强化学习的知识点，听的是唐宇迪博士的课程，下面我将用自己的话语和理解进行表述！！！

1. 强化学习概述

强化学习，英文全称Reinforcement Learning，简称RL。

引言

想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习，阿尔法狗通过大量学习世界上的棋谱，将判定下棋时每一步状态的最佳选择（选择当前状态中，奖励值最大的那一步）。

主要机理

强化学习是与环境不断交互，面临选择时，选择之后，如果效果比较好，会进行奖励；效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时，优先选择奖励值大的选择，从而达到不断学习的目的！

2.强化学习基本概念

基本概念

（1）agent：中文翻译过来为智能体，就是我们模型中将要学习和被操作的对象。例如：自动驾驶中的汽车。
（2）state：中午翻译过来为状态，就是当前智能体所处的周围情况和状态。例如：阿尔法狗与李世石下棋时，此时落子时棋盘上已经落了子的黑白棋子所处位置和分布情况；自动驾驶汽车此时在路的哪个位置。
（3）action：中文翻译过来为行为，就是在当前状态下，智能体将要采取的下一步是什么。例如：阿尔法狗将要在棋盘的哪个位置落子；自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为（直走，左拐，右拐…）
（4）reward：中文翻译过来为奖励，奖励包括正向奖励也简称奖励，还包括负奖励也叫做惩罚。就是当前智能体采取行为之后，会得到怎样的反馈。例如：自动驾驶的汽车，行驶离目的地越来越近，进行奖励；与周围建筑物、车辆等发生了碰撞，进行惩罚。通过奖励和惩罚，“教”智能体去学习！！！
（5）policy：中文翻译过来为策略，就是为了达到我最终的目的，采取怎样的一系列行为，称作是策略。

强化学习过程

在这里插入图片描述
智能体在采取行动前，会先进行观察。最开始会进行不同的选择，与环境交互之后（进行奖励和惩罚），学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…

如上图所示，简而言之就是：智能体不断与环境交互，环境对智能进行奖励和惩罚，从而改变智能体状态。
进行反复循环，推动智能体向着状态变化（奖励值大的方向）移动。
在这里插入图片描述