当前位置:网站首页>论文笔记:Universal Value Function Approximators
论文笔记:Universal Value Function Approximators
2022-06-28 19:04:00 【UQI-LIUWJ】
PMLR 2015
1 介绍
这篇paper提出了UVFA(universal value function approximators),这是根据state(其他的value function也有的部分) 和goal(其他的value function没有的部分)来估计期望收益
学习UVFA的挑战在于,一般来说agent只会看到很小一部分的(s,g)组合,不可能遍历到所有的state-goal对。如果用监督学习来训练
,那么也很有可能因为数据量不足而欠拟合,成为一个困难的回归问题。
这里UVFA使用了类似于矩阵分解的方法,将数据看作一个稀疏矩阵,每一行是一个观测到的state s,每一列是一个观测到的目标 g。然后将矩阵分解成状态embedding Φ(s)和目标embedding φ(g)。
——>于是可以分别学习从state到Φ(s);goal到φ(g)的非线性mapping
2 模型部分

two-stream architecture可以很好地学习到state和goal之间的共同结构
- 在很多情况下,goal都可以定义成state的形式/state的组合,
。因而Φ和φ之间应该有一些可以共享的feature。 - 这篇论文在MLP Φ和φ中,前几层的参数是共享的,所以state和goal共同的feature就能被学习到了
- ——>partially symmetric architecture
- 在有些情况下,UVFA可能是对称的

- 比如计算state s 和goal g之间距离的UVFA
- 此时我们可以令Φ=φ,h是一个对称的算子(比如点积)
- ——>symmetric architecture
2.1 监督学习UVFA
2.1.1 端到端学习
通过一个合适的loss function(比如MSE
)+梯度下降实现
2.1.2 two-stage 学习
- stage1:将V*(g)放到一个矩阵中,行表示state,列表示goal。进行矩阵分解,得到
和
【图1 第三张图的右半部分】 - stage2:将
和
作为ground-truth,学习Φs和φg 【图1 第三张图的左半部分】
2.2 强化学习UVFA
强化学习的话,就没有ground-truth V*(g)了,得通过一些方式求得Q-value
文中使用一种Horde 架构的方式可以产生不同目标对应的Q-value,那篇paper没有看,不过用bootstriping(TD)的话,结果上来说是差不多的【TD的话会稍微不稳定一些】

【注意一点:具体这个goal是怎么取的,文章中还是没说】
【到第10步,Q-value算出来之后,和强化学习就没太大的关系了,后面几步就是矩阵分解+两个embedding network的training】
边栏推荐
- Qt 中 QObjectCleanupHandler 使用总结
- Advanced - Introduction to business transaction design and development
- Mybayis之核心主件分析
- 牛津大學教授Michael Wooldridge:AI社區近40年如何看待神經網絡
- G 双轴图sql脚本
- Professor Michael Wooldridge of Oxford University: how the AI community views neural networks in the past 40 years
- Analysis of the core components of mybayis
- Live app system source code, automatically playing when encountering video dynamically
- Shell unknown rollup 1
- sql面试题:求连续最大登录天数
猜你喜欢

Cvpr2022 | Zhejiang University and ant group put forward a hierarchical residual multi granularity classification network based on label relation tree to model hierarchical knowledge among multi granu

Enhancing steam and engineering education from theory to practice

CVPR2022 | 浙大、蚂蚁集团提出基于标签关系树的层级残差多粒度分类网络,建模多粒度标签间的层级知识

C#连接数据库完成增删改查操作
![[unity3d] emission (raycast) physical ray (Ray)](/img/46/a9fda743f597db9584c982b10c191c.png)
[unity3d] emission (raycast) physical ray (Ray)

Render function parsing

电脑如何检查驱动程序是否正常

How to resolve kernel errors? Solution to kernel error of win11 system

Technical methodology of new AI engine under the data infrastructure upgrade window

About Critical Values
随机推荐
Ffmpeg learning summary
福建的朋友们,你们的养老保险上云啦!
High performance and high availability computing architecture scheme commented by Weibo
How to change the status bar at the bottom of win11 to black? How to change the status bar at the bottom of win11 to black
There are thousands of roads. Why did this innovative storage company choose this one?
PostgreSQL database docker
应用实践 | 10 亿数据秒级关联,货拉拉基于 Apache Doris 的 OLAP 体系演进(附 PPT 下载)
G 双轴图sql脚本
展示用sql创建中间数据表的实际工作用例
月环比sql实现
sql面试题:求连续最大登录天数
Openharmony - detailed source code of Kernel Object Events
进阶高级-业务事务设计 开发入门
Month on month SQL implementation
道路千万条,为什么这家创新存储公司会选这条?
How does the computer check whether the driver is normal
带你手把手实现grafana双轴图
Grafana draws the trend chart
G biaxial graph SQL script
Memory leak
,那么也很有可能因为数据量不足而欠拟合,成为一个困难的回归问题。
。因而Φ和φ之间应该有一些可以共享的feature。 
和
【图1 第三张图的右半部分】