当前位置:网站首页>2、TD+Learning

2、TD+Learning

2022-07-07 23:21:00 C--G

Discounted Return

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Sarsa

TD算法,用来学习动作价值函数QΠ

Sarsa:Tabular Version

在这里插入图片描述
在这里插入图片描述
Sarsa’s Name
在这里插入图片描述
表格状态的Sarsa适用于状态和动作较少,随着状态和动作的增大,表格增大就很难学习

Sarsa:Neural Network Version

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-Learning

TD算法,学习最优动作算法

Sarsa与Q-Learning
在这里插入图片描述
在这里插入图片描述

Derive TD Target

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-Learning(tabular version)

在这里插入图片描述

Q-Learning(DQN Version)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Multi-Setp TD Target

  • Using One Reward
    在这里插入图片描述
  • Using Multiple Rewards
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

价值回放(Revisiting DQN and TD Learning)

  • Shortcoming 1:Waste of Experience

在这里插入图片描述

  • Shortcoming2:Correlated Updates
    在这里插入图片描述
  • 经验回放

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • History

在这里插入图片描述

Prioritized Experience Replay

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
左边是马里奥常见场景,右边是boos关场景,相对于左边而言,右边更少见,因此要加大右边场景的权重,TD error越大,那么该场景就越重要
在这里插入图片描述
在这里插入图片描述
随机梯度下降的学习率应该根据抽样的重要性进行调整
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一条样本的TD越大,那么抽样权重就越大,学习率就越小

高估问题

在这里插入图片描述
Bootstrapping:自举问题,拽自己的鞋子将自己提起来
类似左脚踩右脚上天方法,现实中是不存在,强化学习中存在
在这里插入图片描述
在这里插入图片描述

Problem of Overestimation

在这里插入图片描述

  • Reason 1:Maximization
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • Reason 2:Bootstrapping
    在这里插入图片描述
  • Why does overestimation happen
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • Why overestimation is a shortcoming
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • Solutions
    在这里插入图片描述

Target Network

在这里插入图片描述
TD Learning with Target Network
在这里插入图片描述
Update Target Network在这里插入图片描述
Comparisons
在这里插入图片描述
Target Network虽然好了一点,但仍然无法摆脱高估问题

Double DQN

  • Naive Update
    在这里插入图片描述

  • Using Target Network
    在这里插入图片描述

  • Double DQN
    在这里插入图片描述

  • Why does Double DQN work better
    在这里插入图片描述

Dueling Network

Advantage Function(优势函数)

  • Value Functions
    在这里插入图片描述

  • Optimal Value Functions
    在这里插入图片描述
    Properties of Advantage Function
    在这里插入图片描述
    在这里插入图片描述

Dueling Network

在这里插入图片描述
Revisiting DQN
在这里插入图片描述
Approximating Advantage Function
在这里插入图片描述
Approximating State-Value Function
在这里插入图片描述
Dueling Network:Formulation
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
蓝色加上红色再减去红色的最大值就得到紫色最后Dueling Network输出
在这里插入图片描述
Problem of Non-identifiability
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_50973728/article/details/125651752