当前位置:网站首页>论文笔记:Universal Value Function Approximators
论文笔记:Universal Value Function Approximators
2022-06-28 19:04:00 【UQI-LIUWJ】
PMLR 2015
1 介绍
这篇paper提出了UVFA(universal value function approximators),这是根据state(其他的value function也有的部分) 和goal(其他的value function没有的部分)来估计期望收益
学习UVFA的挑战在于,一般来说agent只会看到很小一部分的(s,g)组合,不可能遍历到所有的state-goal对。如果用监督学习来训练
,那么也很有可能因为数据量不足而欠拟合,成为一个困难的回归问题。
这里UVFA使用了类似于矩阵分解的方法,将数据看作一个稀疏矩阵,每一行是一个观测到的state s,每一列是一个观测到的目标 g。然后将矩阵分解成状态embedding Φ(s)和目标embedding φ(g)。
——>于是可以分别学习从state到Φ(s);goal到φ(g)的非线性mapping
2 模型部分

two-stream architecture可以很好地学习到state和goal之间的共同结构
- 在很多情况下,goal都可以定义成state的形式/state的组合,
。因而Φ和φ之间应该有一些可以共享的feature。 - 这篇论文在MLP Φ和φ中,前几层的参数是共享的,所以state和goal共同的feature就能被学习到了
- ——>partially symmetric architecture
- 在有些情况下,UVFA可能是对称的

- 比如计算state s 和goal g之间距离的UVFA
- 此时我们可以令Φ=φ,h是一个对称的算子(比如点积)
- ——>symmetric architecture
2.1 监督学习UVFA
2.1.1 端到端学习
通过一个合适的loss function(比如MSE
)+梯度下降实现
2.1.2 two-stage 学习
- stage1:将V*(g)放到一个矩阵中,行表示state,列表示goal。进行矩阵分解,得到
和
【图1 第三张图的右半部分】 - stage2:将
和
作为ground-truth,学习Φs和φg 【图1 第三张图的左半部分】
2.2 强化学习UVFA
强化学习的话,就没有ground-truth V*(g)了,得通过一些方式求得Q-value
文中使用一种Horde 架构的方式可以产生不同目标对应的Q-value,那篇paper没有看,不过用bootstriping(TD)的话,结果上来说是差不多的【TD的话会稍微不稳定一些】

【注意一点:具体这个goal是怎么取的,文章中还是没说】
【到第10步,Q-value算出来之后,和强化学习就没太大的关系了,后面几步就是矩阵分解+两个embedding network的training】
边栏推荐
- 19.2 container classification, array and vector container refinement
- Openharmony - detailed source code of Kernel Object Events
- Oom out of memory memory overflow
- 智能计算系统3 Plugin 集成开发的demo
- Baidu time factor addition
- Are there any regular and safe foreign exchange dealers in China?
- leetcode 1647. Minimum deletions to make character frequencies unique
- 使用.NetCore自带的后台作业,出入队简单模拟生产者消费者处理请求响应的数据
- 令人惊艳的NanoPC-T4(RK3399)作为工作站的初始配置和相关应用
- matlab 受约束的 Delaunay 三角剖分
猜你喜欢

腾讯汤道生:面向数实融合新世界,开发者是最重要的“建筑师”

try except 添加辅助新列

About covariance and correlation

Memory leak

Professor Michael Wooldridge of Oxford University: how the AI community views neural networks in the past 40 years

小白创业做电商,选对商城系统很重要!

Grafana biaxial graph with your hands

C# 41. int与string互转
![[unity3d] camera follow](/img/11/6309450f2b3ef33df558104549dc4c.png)
[unity3d] camera follow

易观分析《2022年中国银行业隐私计算平台供应商实力矩阵分析》研究活动 正式启动
随机推荐
leetcode 1647. Minimum deletions to make character frequencies unique
毕业设计-基于Unity的餐厅经营游戏的设计与开发(附源码、开题报告、论文、答辩PPT、演示视频,带数据库)
618 activity season - the arrival of special discounts for hundreds of low code platforms
Leetcode 周赛299
mysql全解 Ubuntu/win10
直播app系统源码,动态遇到视频时开始自动播放
Are there any regular and safe foreign exchange dealers in China?
math_ Proving common equivalent infinitesimal & Case & substitution
团体程序设计天梯赛练习题-持续更新中
Month on month SQL implementation
Graduation project - Design and development of restaurant management game based on unity (with source code, opening report, thesis, defense PPT, demonstration video and database)
Hands on Teaching of servlet use (1)
grafana绘制走势图
1 goal, 3 fields, 6 factors and 9 links of digital transformation
async-validator.js数据校验器
MongoDB系列之MongoDB工作原理简单介绍
Idea merge other branches into dev branch
微博评论的高性能高可用计算架构方案
Question brushing analysis tool
AOSP Tsinghua image download error resolution
,那么也很有可能因为数据量不足而欠拟合,成为一个困难的回归问题。
。因而Φ和φ之间应该有一些可以共享的feature。 
和
【图1 第三张图的右半部分】