【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
- 【100个网络运维工作者必须知道的小知识!】
- 【R语言】批量重命名文件
- How can become a good architect necessary skills: painting for all the people praise the system architecture diagram?What is the secret?Quick to open this article and have a look!.
- OnePlus 10RT appears on Geekbench, product launch also seems to be approaching
- SQL的ROUND函数用法及其实例
- 个人日记
- Xingtu has been short of disruptive products?Will this M38T from the Qingdao factory be a breakthrough?
- TCP百万并发服务器优化调参
- 吴恩达机器学习课后习题——kmeans
- 浅谈大数据背景下数据库安全保障体系
猜你喜欢
随机推荐
成为优秀架构师必备技能:怎样才能画出让所有人赞不绝口的系统架构图?秘诀是什么?快来打开这篇文章看看吧!...
06 redis cluster structures
指针和解引用
B001 - 基于STM32的智能生态鱼缸
基于BiGRU和GAN的数据生成方法
B011 - 51-based multifunctional fingerprint smart lock
素域和扩域
浅谈大数据背景下数据库安全保障体系
tooltip control
When custom annotations implement log printing, specific fields are blocked from printing
Flask框架实战
吴恩达机器学习课后习题——kmeans
OnePlus 10RT appears on Geekbench, product launch also seems to be approaching
XAML WPF item groupBox control
小贝拉机器人是朋友_普渡科技召开新品发布会,新一代送餐机器人“贝拉”温暖登场...
极化微波成像概述3
【100个网络运维工作者必须知道的小知识!】
个人日记
想做期货,农产品期货怎么炒?波动大么
matlab 基于奇偶校验的LSB隐藏水印 三种改进









