【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
- How can become a good architect necessary skills: painting for all the people praise the system architecture diagram?What is the secret?Quick to open this article and have a look!.
- 面经汇总-社招-6年
- tooltip 控件
- [供应链·案例篇]石油和天然气行业的数字化转型用例
- Detailed explanation of the working principle of crystal oscillator
- 金仓数据库KingbaseES安全指南--6.5. LDAP身份验证
- 力扣每日一题-第45天-697. 数组的度
- 创造建材数字转型新视界,中建材如何多边赋能集团业务快速发展
- [ACNOI2022]物品
- GridControl helper class for DevExpress
猜你喜欢
金仓数据库 KingbaseES V8.3 至 V8.6 迁移最佳实践(4. V8.3 到 V8.6 数据库移植实战)
吴恩达机器学习课后习题——kmeans
[供应链·案例篇]石油和天然气行业的数字化转型用例
DBPack SQL Tracing 功能及数据加密功能详解
程序员架构修炼之道:如何设计“易理解”的系统架构?
B011 - 51-based multifunctional fingerprint smart lock
matlab 基于奇偶校验的LSB隐藏水印 三种改进
分布式消息队列平滑迁移技术实战
Shell nl命令详解(显示行号、读取文件)
Topology Parts Disassembly 3D Visualization Solution
随机推荐
[供应链·案例篇]石油和天然气行业的数字化转型用例
加州大学|通过图抽象从不同的第三人称视频中进行逆强化学习
银行案例|Zabbix跨版本升级指南,4.2-6.0不香吗?
QLineEdit学习与使用
关系运算符和if,else语句
hcip第九天
快速抽取resnet_v2_152中间的特征层
M1芯片电脑安装cerebro
云商店携手快报税,解锁财务服务新体验!
Isometric graph neural networks shine in drug discovery
程序员架构修炼之道:如何设计“易理解”的系统架构?
zabbix部署和简单使用
块级元素、行内元素、行内块元素
2022年SQL大厂高频实战面试题(详细解析)
C# LibUsbDotNet 在USB-CDC设备的上位机应用
SQL窗口函数
02 es cluster construction
opencv语法Mat类型总结
QT基础功能,信号、槽
关于单应性矩阵的若干思考