当前位置:网站首页>1、强化学习基础知识点
1、强化学习基础知识点
2022-07-05 20:18:00 【C--G】
概率论知识补充
Random Variable
抛硬币是随机事件,正面朝上与反面朝上概率都是0.5,通常使用X表示随机变量,x表示观测值
Probability Density Function (PDF)
概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性
高斯分布
离散概率分布
概率密度函数如果为连续型,则函数积分和为1,离散型所有取值和为1
Random Sampling
随机抽样

强化学习基础
强化学习概念名词

state:状态
action:动作
agent:智能体
policy:策略(概率密度函数)
各个动作的概率,使用随机的策略,更切合现实,不易看出规律
reward:奖励
要根据实际情况设置奖励,如:吃到金币奖励+1,游戏通过奖励+10000,玛丽淘汰奖励-10000,什么也没发生奖励是0,强化学习的目的是提高获得的奖励
state transition:状态转移
状态转移是随机的,状态转移概率密度函数只有环境知道,玩家不知道
简介

agent采取action,environment的state改变同时返回reward给agent,agent根据reward进行学习
- 强化学习中随机性的来源
action的随机性
state的随机性
- AI如何玩游戏


观察state s1,Agent利用policy函数执行action a1,environment生成新的state s2并返回的reward r1给agent ,agent再次利用policy函数执行action a2。。。。。。循环该操作 - Rewards and Returns

- 回报
return:回报,也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大,比如:今天的80元比明天100元来得实际
y:折扣汇报,介于0-1
- 汇报的随机性



t时刻return取决于t到n时刻的reward,reward取决与state和action,所以return也取决与state和action
- Value Function
action-value function——动作价值函数

对于Ut而言,St和At是可以观察的,St+1——Sn,和At+1——An是随机变量
St+1概率与St,At有关,At+1概率与St+1有关
state-value function——状态价值函数



- Ai control the agent

Π(a|s)策略学习函数,在state情况下最优action,Q(s,a)计算各个动作的得分,选择最优*
评估强化学习
OpenAI Gym



总结

边栏推荐
- 死信队列入门(两个消费者,一个生产者)
- Based on vs2017 and cmake GUI configuration, zxing and opencv are used in win10 x64 environment, and simple detection of data matrix code is realized
- 股票开户哪里好?网上客户经理开户安全吗
- Leetcode skimming: binary tree 17 (construct binary tree from middle order and post order traversal sequence)
- 14. Users, groups, and permissions (14)
- Cocos2d-x项目总结中的一些遇到的问题
- Parler de threadlocal insecurerandom
- 炒股开户最低佣金,低佣金开户去哪里手机上开户安全吗
- 中金财富在网上开户安全吗?
- 解决Thinkphp框架应用目录下数据库配置信息修改后依然按默认方式连接
猜你喜欢

Leetcode: binary tree 15 (find the value in the lower left corner of the tree)

Station B up builds the world's first pure red stone neural network, pornographic detection based on deep learning action recognition, Chen Tianqi's course progress of machine science compilation MLC,

Zero cloud new UI design

SecureRandom那些事|真伪随机数

零道云新UI设计中

leetcode刷题:二叉树17(从中序与后序遍历序列构造二叉树)

【数字IC验证快速入门】2、通过一个SoC项目实例,了解SoC的架构,初探数字系统设计流程

js实现禁止网页缩放(Ctrl+鼠标、+、-缩放有效亲测)

基础篇——配置文件解析

.Net分布式事務及落地解决方案
随机推荐
Debezium series: PostgreSQL loads the correct last submission LSN from the offset
股票开户哪里好?网上客户经理开户安全吗
Notes on key vocabulary in the English original of the biography of jobs (12) [chapter ten & eleven]
ROS2专题【01】:win10上安装ROS2
Leetcode brush questions: binary tree 11 (balanced binary tree)
点云文件的.dat文件读取保存
618 "low key" curtain call, how can baiqiushangmei join hands with the brand to cross the "uncertain era"?
【数字IC验证快速入门】7、验证岗位中必备的数字电路基础知识(含常见面试题)
【c语言】归并排序
【c语言】快速排序的三种实现以及优化细节
E. Singhal and Numbers(质因数分解)
kubernetes资源对象介绍及常用命令(五)-(ConfigMap&Secret)
.Net分布式事务及落地解决方案
炒股开户最低佣金,低佣金开户去哪里手机上开户安全吗
Oracle-表空间管理
Codeforces Round #804 (Div. 2) - A, B, C
Convolution free backbone network: Pyramid transformer to improve the accuracy of target detection / segmentation and other tasks (with source code)
Go language learning tutorial (16)
Leetcode(695)——岛屿的最大面积
Schema和Model