【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
猜你喜欢
随机推荐
The site is not found after the website is filed. You have not bound this domain name or IP to the corresponding site! The configuration file does not take effect!
2022.08月--pushmall推贴共享电商更新与开发计划
基于ORB-SLAM2的改进代码
2022年MySQL最新面试题
B011 - 51-based multifunctional fingerprint smart lock
金仓数据库 KDTS 迁移工具使用指南(2. 简介)
金仓数据库 MySQL 至 KingbaseES 迁移最佳实践(2. 概述)
关于Mysql服务无法启动的问题
金仓数据库KingbaseES安全指南--6.5. LDAP身份验证
opencv语法Mat类型总结
生物制药产业发展现状和趋势展望
缓存一致性MESI与内存屏障
C# LibUsbDotNet 在USB-CDC设备的上位机应用
【R语言】对图片进行裁剪 图片批量裁剪
极化微波成像概述3
解决MySQL插入不了中文数据问题
tooltip control
sql添加索引
golang json 返回空值
我在启牛开户安全吗?谁能告诉我开不靠谱?








![[供应链·案例篇]石油和天然气行业的数字化转型用例](/img/44/9ef9f86f8afb85f49aac1cce55723d.jpg)
