当前位置:网站首页>ICML 2022: UFRGS |作为最优策略转移基础的乐观线性支持和后继特征
ICML 2022: UFRGS |作为最优策略转移基础的乐观线性支持和后继特征
2022-06-27 20:56:00 【智源社区】
【标题】Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer
【作者团队】Lucas N. Alegre, Ana L. C. Bazzan, Bruno C. da Silva
【发表日期】2022.6.22
【论文链接】https://arxiv.org/pdf/2206.11326.pdf
【推荐理由】在许多现实世界的应用程序中,强化学习(RL)智能体可能必须解决多个任务,每个任务通常通过奖励函数建模。如果奖励函数是线性表示的,并且智能体已经学习了一组针对不同任务的策略,那么可以利用后续特性(SFs)来组合这些策略,并为新问题找到合理的解决方案。然而,所识别的解并不能保证是最优的。本文介绍了一种新的算法来解决这个限制。它允许 RL 智能体组合现有的策略,并直接为任意的新问题确定最佳策略,而不需要与环境进行任何进一步的交互。本文首先在假设下证明了系统功能语言学习者所解决的迁移学习问题等同于在 RL 中学习优化多目标的问题。然后,本文引入了乐观线性支持算法的一个基于 SF 的扩展来学习一组策略,这些策略的 SF 形成一个凸覆盖集。实验表明此方法在离散和连续领域的价值函数逼近下都优于最先进的竞争算法。
边栏推荐
- Started a natural language model bloom
- 消除el-image图片周围间隙
- webserver流程图——搞懂webserver各模块间调用关系
- Open source of local run / development library of hiplot online drawing tool
- Redis principle - string
- Sentinel
- 通过 MQTT 检测对象和传输图像
- The latest cloud development wechat balance charger special effect applet source code
- 跟着存档教程动手学RNAseq分析(二)
- Working at home is more tiring than going to work at the company?
猜你喜欢

First principles (optimal solution theory)

MapReduce初级编程实践

【IDEA】IDEA 格式化 代码技巧 idea 格式化 会加 <p> 标签

Discuz small fish game wind shadow legend business gbk+utf8 version template /dz game website template

未能加载文件或程序集“CefSharp.Core.Runtime.dll”或它的某一个依赖项。 不是有效的 Win32 应用程序。 (异常来自 HRESULT:0x800700C1)

PE buys a underwear company

华为伙伴暨开发者大会2022 | 麒麟软件携手华为共建计算产业,共创数智未来

Summary of various loams (laser SLAM)

本机部署一个MongoDB单节点服务器,并启用auth验证、开启oplog

Design of STM32 and rc522 simple bus card system
随机推荐
华为伙伴暨开发者大会2022 | 麒麟软件携手华为共建计算产业,共创数智未来
Death of 5 yuan youkuang in Yuanqi forest
Vivado FFT IP的使用说明
小程序referer
Livox lidar+apx15 real-time high-precision radar map reproduction and sorting
Zabbix6.0 upgrade Guide - how to synchronize database upgrades?
消除el-image图片周围间隙
Liuleifeng, a "good man in Guangzhou" in the first quarter of 2022, has a strong sense of integrity and food safety
Advertising is too "wild", Yoshino "surrenders"
UESTC (shenhengtao team) & JD AI (Mei Tao team) proposed a structured dual stream attention network for video Q & A, with performance SOTA! Better than the method based on dual video representation!
Spatial relation query and graph based query in secondary development of ArcGIS Engine
Livox Lidar+海康Camera 基于loam的实时三维重建生成RGB彩色点云
在线JSON转PlainText工具
Swing UI——容器(一)
Using the cucumber automated test framework
Azure Kinect DK 实现三维重建 (PC非实时版)
[网络]常见的请求方法
跨系统数据一致性问题解决方案汇总
OData - SAP S4 OP 中使用SAP API Hub 的API
The latest cloud development wechat balance charger special effect applet source code