当前位置:网站首页>1、强化学习基础知识点
1、强化学习基础知识点
2022-07-05 20:18:00 【C--G】
概率论知识补充
Random Variable
抛硬币是随机事件,正面朝上与反面朝上概率都是0.5,通常使用X表示随机变量,x表示观测值
Probability Density Function (PDF)
概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性
高斯分布
离散概率分布
概率密度函数如果为连续型,则函数积分和为1,离散型所有取值和为1
Random Sampling
随机抽样
强化学习基础
强化学习概念名词
state:状态
action:动作
agent:智能体
policy:策略(概率密度函数)
各个动作的概率,使用随机的策略,更切合现实,不易看出规律
reward:奖励
要根据实际情况设置奖励,如:吃到金币奖励+1,游戏通过奖励+10000,玛丽淘汰奖励-10000,什么也没发生奖励是0,强化学习的目的是提高获得的奖励
state transition:状态转移
状态转移是随机的,状态转移概率密度函数只有环境知道,玩家不知道
简介
agent采取action,environment的state改变同时返回reward给agent,agent根据reward进行学习
- 强化学习中随机性的来源
action的随机性
state的随机性 - AI如何玩游戏
观察state s1,Agent利用policy函数执行action a1,environment生成新的state s2并返回的reward r1给agent ,agent再次利用policy函数执行action a2。。。。。。循环该操作 - Rewards and Returns
- 回报
return:回报,也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大,比如:今天的80元比明天100元来得实际
y:折扣汇报,介于0-1
- 汇报的随机性
t时刻return取决于t到n时刻的reward,reward取决与state和action,所以return也取决与state和action
- Value Function
action-value function——动作价值函数
对于Ut而言,St和At是可以观察的,St+1——Sn,和At+1——An是随机变量
St+1概率与St,At有关,At+1概率与St+1有关
state-value function——状态价值函数
- Ai control the agent
Π(a|s)策略学习函数,在state情况下最优action,Q(s,a)计算各个动作的得分,选择最优*
评估强化学习
OpenAI Gym
总结
边栏推荐
- ICTCLAS用的字Lucene4.9捆绑
- CADD课程学习(7)-- 模拟靶点和小分子相互作用 (半柔性对接 AutoDock)
- After 95, Alibaba P7 published the payroll: it's really fragrant to make up this
- C - sequential structure
- 【数字IC验证快速入门】6、Questasim 快速上手使用(以全加器设计与验证为例)
- Minimum commission for stock trading account opening, where to open an account with low commission? Is it safe to open an account on your mobile phone
- . Net distributed transaction and landing solution
- 物联网智能家居基本方法实现之经典
- Based on vs2017 and cmake GUI configuration, zxing and opencv are used in win10 x64 environment, and simple detection of data matrix code is realized
- sun.misc.BASE64Encoder报错解决方法[通俗易懂]
猜你喜欢
Leetcode skimming: binary tree 12 (all paths of binary tree)
Securerandom things | true and false random numbers
CTF逆向基础
. Net distributed transaction and landing solution
解决php无法将string转换为json的办法
全国爱眼教育大会,2022第四届北京国际青少年眼健康产业展会
Jvmrandom cannot set seeds | problem tracing | source code tracing
Rainbond 5.7.1 支持对接多家公有云和集群异常报警
信息学奥赛一本通 1339:【例3-4】求后序遍历 | 洛谷 P1827 [USACO3.4] 美国血统 American Heritage
JS implementation prohibits web page zooming (ctrl+ mouse, +, - zooming effective pro test)
随机推荐
19 Mongoose模块化
1:引文;
点云文件的.dat文件读取保存
Parler de threadlocal insecurerandom
mongodb基操的练习
ByteDance dev better technology salon was successfully held, and we joined hands with Huatai to share our experience in improving the efficiency of web research and development
leetcode刷题:二叉树15(找树左下角的值)
14. Users, groups, and permissions (14)
【数字IC验证快速入门】9、Verilog RTL设计必会的有限状态机(FSM)
基金网上开户安全吗?去哪里开,可以拿到低佣金?
DP:树DP
document方法
中金财富在网上开户安全吗?
Leetcode(695)——岛屿的最大面积
[quick start of Digital IC Verification] 9. Finite state machine (FSM) necessary for Verilog RTL design
解决Thinkphp框架应用目录下数据库配置信息修改后依然按默认方式连接
model方法
sun. misc. Base64encoder error reporting solution [easy to understand]
Is it safe for CICC fortune to open an account online?
关于BRAM IP复位的优先级