【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
猜你喜欢
随机推荐
ROS2系列知识(5):【参数】如何管理?
表达式;运算符,算子;取余计算;运算符优先顺序
SQL的substring_index()用法——MySQL字符串截取
今年最火爆的词:商业分析,看这一篇就够了!
助推科技强国高质量发展《科创超级训练营》系列活动正式拉开帷幕
opencv real-time face detection
matlab 基于奇偶校验的LSB隐藏水印 三种改进
2022年深圳市临床医学研究中心申请指南
金仓数据库KingbaseES安全指南--6.5. LDAP身份验证
CodeTON Round 2 (Div. 1 + Div. 2, Rated, Prizes!) 题解
理财产品的月年化收益率怎么算?
网上开户佣金万一靠谱吗,网上开户安全吗
成为优秀架构师必备技能:怎样才能画出让所有人赞不绝口的系统架构图?秘诀是什么?快来打开这篇文章看看吧!...
Xingtu has been short of disruptive products?Will this M38T from the Qingdao factory be a breakthrough?
RecSys'22|CARCA: Cross-Attention-Aware Context and Attribute Recommendations
主流小程序框架性能分析
tooltip 控件
B011 - 51-based multifunctional fingerprint smart lock
GTK修改pixmap像素,提取pixmap像素RGB值
golang json returns null








