当前位置:网站首页>北京大学|通过对比学习实现离线元强化学习的鲁棒任务表示
北京大学|通过对比学习实现离线元强化学习的鲁棒任务表示
2022-06-22 18:32:00 【智源社区】
【标题】Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning
【作者团队】Haoqi Yuan, Zongqing Lu
【发表日期】2022.6.21
【论文链接】https://arxiv.org/pdf/2206.10442.pdf
【推荐理由】本文主要研究内容为离线元强化学习,这是一种实用的强化学习范式,可以从离线数据中学习以适应新任务。 离线数据的分布由行为策略和任务共同决定。 现有的离线元强化学习算法无法区分这些因素,使得任务表示对行为策略的变化不稳定。 为了解决这个问题,作者提出了一个任务表示的对比学习框架——CORRO(COntrastive Robust task Representation learning for OMRL),该框架对训练和测试中行为策略的分布不匹配具有鲁棒性。 作者设计了一个双层编码器结构,使用互信息最大化来形式化任务表示学习,推导出对比学习目标,并引入几种方法来近似负对的真实分布。 对各种离线元强化学习基准的实验证明了本文的方法相对于先前方法的优势,特别是在对分布外行为策略的泛化方面。
边栏推荐
- 数组对象实现一 一对比(索引和id相同的保留原数据,原数组没有的数据从默认列表加进去)
- libcef最新下载地址-在VS2015下编译为MD-动态链接
- 0816 shortcomings of Feida (improvement direction)
- 拓扑排序
- lua--数据类型、变量、循环、函数、运算符的使用
- Recommend an anatomy website
- Xintang nuc980 usage record: basic description of development environment preparation and compilation configuration
- Openpnp使用过程的一些问题记录
- The custom control autoscalemode causes the problem of increasing the width of font
- About Random Forest
猜你喜欢

84. (cesium chapter) movement of cesium model on terrain

Modify the antd tree component so that its subclasses are arranged horizontally.

Solution of off grid pin in Altium Designer

技术管理进阶——你了解成长的全貌吗?

2. what is mechanical design?

0816 shortcomings of Feida (improvement direction)

修改antd tree组件,使其子类横向排列。

关键路径

1.2----- mechanical design tools (CAD software) and hardware design tools (EDA software) and comparison

Solution de pin hors grille dans altium designer
随机推荐
Human pose estimation
Focal and global knowledge distillation for detectors
Nrf51822 peripheral learning
Altium Designer中off grid pin解决方法
Fault analysis | from data_ Free exception
误用append案例一则
NAND闪存(NAND Flash)颗粒SLC,MLC,TLC,QLC的对比
MySQL约束
MySQL多表操作练习题
Chapter I 100 hot questions (1-5)
C #, introductory tutorial -- a little knowledge about function parameter ref and source program
How to use yincan IS903 to master DIY's own USB flash disk? (good items for practicing BGA welding)
二叉排序树的查找、插入和删除
Antd tree tree tree selector subclass required
编译报错:/usr/bin/ld: /usr/local/lib/libgflags.a(gflags.cc.o): relocation R_X86_64_32S against `.rodata‘
Screw数据库文档生成器
Weizhi technology appeared in the Western Digital Expo, and the space-time AI technology was highly recognized
Array objects can be compared one by one (the original data with the same index and ID will be retained, and the data not in the original array will be added from the default list)
知识蒸馏之Focal and Global Knowledge Distillation for Detectors
2. what is mechanical design?