当前位置:网站首页>RL强化学习总结(一)
RL强化学习总结(一)
2022-08-05 04:59:00 【时代&信念】
最近总结一下强化学习的知识点,听的是唐宇迪博士的课程,下面我将用自己的话语和理解进行表述!!!
1. 强化学习概述
强化学习,英文全称Reinforcement Learning,简称RL。
引言
想必大家都听过阿尔法狗战胜了世界围棋冠军的新闻吧。这里的阿尔法狗使用的就是AI中的强化学习,阿尔法狗通过大量学习世界上的棋谱,将判定下棋时每一步状态的最佳选择(选择当前状态中,奖励值最大的那一步)。
主要机理
强化学习是与环境不断交互,面临选择时,选择之后,如果效果比较好,会进行奖励;效果不好便进行惩罚。让模型在奖励和惩罚中进行学习。之后面临选择时,优先选择奖励值大的选择,从而达到不断学习的目的!
2.强化学习基本概念
基本概念
(1)agent:中文翻译过来为智能体,就是我们模型中将要学习和被操作的对象。例如:自动驾驶中的汽车。
(2)state:中午翻译过来为状态,就是当前智能体所处的周围情况和状态。例如:阿尔法狗与李世石下棋时,此时落子时棋盘上已经落了子的黑白棋子所处位置和分布情况;自动驾驶汽车此时在路的哪个位置。
(3)action:中文翻译过来为行为,就是在当前状态下,智能体将要采取的下一步是什么。例如:阿尔法狗将要在棋盘的哪个位置落子;自动驾驶的汽车下一个时刻将要采取怎么样的驾驶行为(直走,左拐,右拐…)
(4)reward:中文翻译过来为奖励,奖励包括正向奖励也简称奖励,还包括负奖励也叫做惩罚。就是当前智能体采取行为之后,会得到怎样的反馈。例如:自动驾驶的汽车,行驶离目的地越来越近,进行奖励;与周围建筑物、车辆等发生了碰撞,进行惩罚。通过奖励和惩罚,“教”智能体去学习!!!
(5)policy:中文翻译过来为策略,就是为了达到我最终的目的,采取怎样的一系列行为,称作是策略。
强化学习过程

智能体在采取行动前,会先进行观察。最开始会进行不同的选择,与环境交互之后(进行奖励和惩罚),学着去选择奖励值大的。
观察——>行动——>观察
不断进行循环…
如上图所示,简而言之就是:智能体不断与环境交互,环境对智能进行奖励和惩罚,从而改变智能体状态。
进行反复循环,推动智能体向着状态变化(奖励值大的方向)移动。
例子
这个车,采取行动(向左或者向右移动)之后,通过奖励措施,不断修改自身的状态(杆的角度和速度)
边栏推荐
- bytebuffer internal structure
- 算法---一和零(Kotlin)
- Day14 jenkins部署
- 【转】什么是etcd
- C+ +核心编程
- 8.04 Day35-----MVC three-tier architecture
- Visibility of multi-column attribute column elements: display, visibility, opacity, vertical alignment: vertical-align, z-index The larger it is, the more it will be displayed on the upper layer
- how to measure distance from point to face in creo
- Cron(Crontab)--use/tutorial/example
- Shell(4) Conditional Control Statement
猜你喜欢

mutillidae download and installation

dedecms后台生成提示读取频道信息失败的解决方法
![[MRCTF2020] Ezpop (detailed)](/img/19/920877ca36d1eda8d118637388ab05.png)
[MRCTF2020] Ezpop (detailed)

Redis哨兵模式配置文件详解

The production method of the powered small sailboat is simple, the production method of the electric small sailboat

University Physics---Particle Kinematics

特征预处理

基于Web的商城后台管理系统的设计与实现

Feature preprocessing

Homework 8.4 Interprocess Communication Pipes and Signals
随机推荐
Dephi逆向工具Dede导出函数名MAP导入到IDA中
【学生毕业设计】基于web学生信息管理系统网站的设计与实现(13个页面)
【informix】解决启动报错大全,以及解决办法
Day019 方法重写与相关类的介绍
Develop your own node package
Understanding and use of C# on set() and get() methods
creo怎么测量点到面的距离
flink reads mongodb data source
bytebuffer use demo
软件管理rpm
Mvi架构浅析
为什么刚考完PMP,就开始准备软考了?
There are a lot of 4T hard drives remaining, prompting "No space left on device" insufficient disk space
MySQL Foundation (1) - Basic Cognition and Operation
In the hot summer, teach you to use Xiaomi smart home accessories + Raspberry Pi 4 to connect to Apple HomeKit
ansible各个模块详解
Four-digit display header design
仪表板展示 | DataEase看中国:数据呈现中国资本市场
社区分享|腾讯海外游戏基于JumpServer构建游戏安全运营能力
【转】什么是etcd