当前位置:网站首页>RL强化学习总结(一)
RL强化学习总结(一)
2022-08-05 04:59:00 【时代&信念】
最近总结一下强化学习的知识点,听的是唐宇迪博士的课程,下面我将用自己的话语和理解进行表述!!!
1. 强化学习概述
强化学习,英文全称Reinforcement Learning,简称RL。
引言
想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习,阿尔法狗通过大量学习世界上的棋谱,将判定下棋时每一步状态的最佳选择(选择当前状态中,奖励值最大的那一步)。
主要机理
强化学习是与环境不断交互,面临选择时,选择之后,如果效果比较好,会进行奖励;效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时,优先选择奖励值大的选择,从而达到不断学习的目的!
2.强化学习基本概念
基本概念
(1)agent:中文翻译过来为智能体,就是我们模型中将要学习和被操作的对象。例如:自动驾驶中的汽车。
(2)state:中午翻译过来为状态,就是当前智能体所处的周围情况和状态。例如:阿尔法狗与李世石下棋时,此时落子时棋盘上已经落了子的黑白棋子所处位置和分布情况;自动驾驶汽车此时在路的哪个位置。
(3)action:中文翻译过来为行为,就是在当前状态下,智能体将要采取的下一步是什么。例如:阿尔法狗将要在棋盘的哪个位置落子;自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为(直走,左拐,右拐…)
(4)reward:中文翻译过来为奖励,奖励包括正向奖励也简称奖励,还包括负奖励也叫做惩罚。就是当前智能体采取行为之后,会得到怎样的反馈。例如:自动驾驶的汽车,行驶离目的地越来越近,进行奖励;与周围建筑物、车辆等发生了碰撞,进行惩罚。通过奖励和惩罚,“教”智能体去学习!!!
(5)policy:中文翻译过来为策略,就是为了达到我最终的目的,采取怎样的一系列行为,称作是策略。
强化学习过程

智能体在采取行动前,会先进行观察。最开始会进行不同的选择,与环境交互之后(进行奖励和惩罚),学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…
如上图所示,简而言之就是:智能体不断与环境交互,环境对智能进行奖励和惩罚,从而改变智能体状态。
进行反复循环,推动智能体向着状态变化(奖励值大的方向)移动。
例子
这个车,采取行动(向左或者向右移动)之后,通过奖励措施,不断修改自身的状态(杆的角度和速度)
边栏推荐
- u-boot中的u-boot,dm-pre-reloc
- dedecms后台生成提示读取频道信息失败的解决方法
- Flutter learning - the beginning
- Cryptography Series: PEM and PKCS7, PKCS8, PKCS12
- 基于Web的商城后台管理系统的设计与实现
- Flutter learning 5-integration-packaging-publish
- 4T硬盘剩余很多提示“No space left on device“磁盘空间不足
- [BJDCTF2020] EasySearch
- How to identify false evidence and evidence?
- Mysql的undo log详解
猜你喜欢

基于Web的商城后台管理系统的设计与实现

There are a lot of 4T hard drives remaining, prompting "No space left on device" insufficient disk space

flink reads mongodb data source

AUTOCAD——标注关联

WPF中DataContext作用

creo怎么测量点到面的距离

Detailed explanation of Mysql's undo log

Mysql's redo log detailed explanation

In the WebView page of the UI automation test App, the processing method when the search bar has no search button

C+ +核心编程
随机推荐
Is the NPDP certificate high in gold content?Compared to PMP?
【无标题】
[Surveying] Quick Summary - Excerpt from Gaoshu Gang
Mysql's redo log detailed explanation
upload上传图片到腾讯云,如何上传图片
Bytebuffer put flip compact clear method demonstration
flink reads mongodb data source
使用IDEA连接TDengine服务器
基于Web的商城后台管理系统的设计与实现
Use IDEA to connect to TDengine server
The solution to the failure to read channel information when dedecms generates a message in the background
creo怎么测量点到面的距离
1007 Climb Stairs (greedy | C thinking)
Redis - 13. Development Specifications
Some conventional routines of program development (1)
for..in和for..of的区别
C+ +核心编程
请写出SparkSQL语句
The first performance test practice, there are "100 million" a little nervous
Mini Program_Dynamic setting of tabBar theme skin