当前位置：网站首页>1、强化学习基础知识点

1、强化学习基础知识点

2022-07-05 20:18:00 【C--G】

概率论知识补充

Random Variable

抛硬币是随机事件，正面朝上与反面朝上概率都是0.5，通常使用X表示随机变量，x表示观测值
在这里插入图片描述

Probability Density Function (PDF)

概率密度函数意味着某个随机变量在某个确定的取值点附件的可能性

高斯分布
在这里插入图片描述
离散概率分布

概率密度函数如果为连续型，则函数积分和为1，离散型所有取值和为1

Random Sampling

随机抽样
在这里插入图片描述

在这里插入图片描述

强化学习基础

强化学习概念名词

在这里插入图片描述
state：状态
action：动作
agent：智能体

policy：策略（概率密度函数）

各个动作的概率，使用随机的策略，更切合现实，不易看出规律

reward：奖励
要根据实际情况设置奖励，如：吃到金币奖励+1，游戏通过奖励+10000，玛丽淘汰奖励-10000，什么也没发生奖励是0，强化学习的目的是提高获得的奖励 在这里插入图片描述
state transition：状态转移
状态转移是随机的，状态转移概率密度函数只有环境知道，玩家不知道

简介

在这里插入图片描述
agent采取action，environment的state改变同时返回reward给agent，agent根据reward进行学习

强化学习中随机性的来源
action的随机性

state的随机性
AI如何玩游戏

观察state s1，Agent利用policy函数执行action a1，environment生成新的state s2并返回的reward r1给agent ，agent再次利用policy函数执行action a2。。。。。。循环该操作
Rewards and Returns
回报

return：回报，也就是未来的累积奖励
Ut由Rt到游戏结束Rn累加所得。当前reword应该比后期reword权重大，比如：今天的80元比明天100元来得实际
在这里插入图片描述
y：折扣汇报，介于0-1

汇报的随机性

在这里插入图片描述

t时刻return取决于t到n时刻的reward，reward取决与state和action，所以return也取决与state和action

Value Function

action-value function——动作价值函数
在这里插入图片描述

对于Ut而言，St和At是可以观察的，St+1——Sn，和At+1——An是随机变量

St+1概率与St，At有关，At+1概率与St+1有关

state-value function——状态价值函数

在这里插入图片描述

Ai control the agent

Π（a|s）策略学习函数，在state情况下最优action，Q（s，a）计算各个动作的得分，选择最优*

评估强化学习

OpenAI Gym
在这里插入图片描述

总结

在这里插入图片描述

版权声明
本文为[C--G]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_50973728/article/details/125615069

边栏推荐

猜你喜欢

随机推荐