当前位置:网站首页>1、强化学习基础知识点
1、强化学习基础知识点
2022-07-05 20:18:00 【C--G】
概率论知识补充
Random Variable
抛硬币是随机事件,正面朝上与反面朝上概率都是0.5,通常使用X表示随机变量,x表示观测值
Probability Density Function (PDF)
概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性
高斯分布
离散概率分布
概率密度函数如果为连续型,则函数积分和为1,离散型所有取值和为1
Random Sampling
随机抽样
强化学习基础
强化学习概念名词
state:状态
action:动作
agent:智能体
policy:策略(概率密度函数)
各个动作的概率,使用随机的策略,更切合现实,不易看出规律
reward:奖励
要根据实际情况设置奖励,如:吃到金币奖励+1,游戏通过奖励+10000,玛丽淘汰奖励-10000,什么也没发生奖励是0,强化学习的目的是提高获得的奖励
state transition:状态转移
状态转移是随机的,状态转移概率密度函数只有环境知道,玩家不知道
简介
agent采取action,environment的state改变同时返回reward给agent,agent根据reward进行学习
- 强化学习中随机性的来源
action的随机性
state的随机性 - AI如何玩游戏
观察state s1,Agent利用policy函数执行action a1,environment生成新的state s2并返回的reward r1给agent ,agent再次利用policy函数执行action a2。。。。。。循环该操作 - Rewards and Returns
- 回报
return:回报,也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大,比如:今天的80元比明天100元来得实际
y:折扣汇报,介于0-1
- 汇报的随机性
t时刻return取决于t到n时刻的reward,reward取决与state和action,所以return也取决与state和action
- Value Function
action-value function——动作价值函数
对于Ut而言,St和At是可以观察的,St+1——Sn,和At+1——An是随机变量
St+1概率与St,At有关,At+1概率与St+1有关
state-value function——状态价值函数
- Ai control the agent
Π(a|s)策略学习函数,在state情况下最优action,Q(s,a)计算各个动作的得分,选择最优*
评估强化学习
OpenAI Gym
总结
边栏推荐
- USACO3.4 “破锣摇滚”乐队 Raucous Rockers - DP
- C langue OJ obtenir PE, ACM démarrer OJ
- leetcode刷题:二叉树17(从中序与后序遍历序列构造二叉树)
- Wechat applet regular expression extraction link
- Leetcode skimming: binary tree 17 (construct binary tree from middle order and post order traversal sequence)
- Let's talk about threadlocalinsecurerandom
- Leetcode brush question: binary tree 14 (sum of left leaves)
- .Net分布式事務及落地解决方案
- 基础篇——配置文件解析
- CTF逆向基础
猜你喜欢
SecureRandom那些事|真伪随机数
IC科普文:ECO的那些事儿
Oracle tablespace management
Securerandom things | true and false random numbers
Leetcode skimming: binary tree 12 (all paths of binary tree)
鸿蒙系统控制LED的实现方法之经典
leetcode刷题:二叉树13(相同的树)
Practical demonstration: how can the production research team efficiently build the requirements workflow?
618 "low key" curtain call, how can baiqiushangmei join hands with the brand to cross the "uncertain era"?
Solve the problem that the database configuration information under the ThinkPHP framework application directory is still connected by default after modification
随机推荐
Elk distributed log analysis system deployment (Huawei cloud)
银河证券在网上开户安全吗?
Codeforces Round #804 (Div. 2) - A, B, C
Hong Kong stocks will welcome the "best ten yuan store". Can famous creative products break through through the IPO?
Leetcode skimming: binary tree 12 (all paths of binary tree)
Notes on key vocabulary in the English original of the biography of jobs (12) [chapter ten & eleven]
Debezium series: idea integrates lexical and grammatical analysis ANTLR, and check the DDL, DML and other statements supported by debezium
Zero cloud new UI design
leetcode刷题:二叉树14(左叶子之和)
leetcode刷题:二叉树16(路径总和)
Oracle-表空间管理
CTF逆向基础
Four methods of random number generation | random | math | threadlocalrandom | securityrandom
sun. misc. Base64encoder error reporting solution [easy to understand]
ROS2专题【01】:win10上安装ROS2
2022年7月4日-2022年7月10日(ue4视频教程mysql)
JS implementation prohibits web page zooming (ctrl+ mouse, +, - zooming effective pro test)
【数字IC验证快速入门】8、数字IC中的典型电路及其对应的Verilog描述方法
selenium 元素信息
document方法