【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
猜你喜欢
随机推荐
下载 | 谷歌科学家Kevin P. Murphy发布新书《概率机器学习:高级主题》
块级元素、行内元素、行内块元素
SQL窗口函数
理财产品的月年化收益率怎么算?
GTK修改pixmap像素,提取pixmap像素RGB值
sql添加索引
When custom annotations implement log printing, specific fields are blocked from printing
吴恩达机器学习课后习题——kmeans
How can become a good architect necessary skills: painting for all the people praise the system architecture diagram?What is the secret?Quick to open this article and have a look!.
金仓数据库 MySQL 至 KingbaseES 迁移最佳实践(2. 概述)
06 redis cluster structures
小贝拉机器人是朋友_普渡科技召开新品发布会,新一代送餐机器人“贝拉”温暖登场...
OnePlus 10RT appears on Geekbench, product launch also seems to be approaching
半自动化爬虫-爬取一个网站的内容及回复
golang json 返回空值
极化微波成像概述3
2022年SQL大厂高频实战面试题(详细解析)
【报错】Uncaught (in promise) TypeError: Cannot read properties of undefined (reading ‘concat‘)
My new book has sold 10,000 copies!
B002 - 基于嵌入式的老人定位追踪监测仪








