【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
- SQL的ROUND函数用法及其实例
- ROS2支持技术:DDS简述
- Are online account opening commissions reliable? Is online account opening safe?
- B002 - 基于嵌入式的老人定位追踪监测仪
- The site is not found after the website is filed. You have not bound this domain name or IP to the corresponding site! The configuration file does not take effect!
- SQL的substring_index()用法——MySQL字符串截取
- matlab 基于奇偶校验的LSB隐藏水印 三种改进
- 关于2022年深圳市福田区支持高端服务业发展项目的申报通知
- ROS2系列知识(5):【参数】如何管理?
- tooltip control
猜你喜欢
随机推荐
opencv real-time face detection
助推科技强国高质量发展《科创超级训练营》系列活动正式拉开帷幕
ROS2系列知识(5):【参数】如何管理?
金仓数据库 KDTS 迁移工具使用指南(3. 系统部署)
QLineEdit学习与使用
夸克网盘资源站
吴恩达机器学习课后习题——kmeans
GRUB2的零日漏洞补丁现已推出
B002 - 基于嵌入式的老人定位追踪监测仪
EpiSci|片上系统的深度强化学习:神话与现实
使用设备树时对应的驱动编程
银行案例|Zabbix跨版本升级指南,4.2-6.0不香吗?
Flask框架实战
md5sum源码 可多平台编译
Are online account opening commissions reliable? Is online account opening safe?
B001 - 基于STM32的智能生态鱼缸
理财产品的月年化收益率怎么算?
2022年SQL经典面试题总结(带解析)
hcip第九天
基于BiGRU和GAN的数据生成方法