【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning
【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang
【发表日期】2022.7.29
【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416
【推荐理由】大多数现有的 RL 模型都不能泛化,这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题,本文提出了一个两阶段模型,其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段,采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说,本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段,RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的,因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示(Ad-DISR)。最后,在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明,此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。
当前位置:网站首页>成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐
2022-08-01 17:39:00 【智源社区】
边栏推荐
猜你喜欢

成为优秀架构师必备技能:怎样才能画出让所有人赞不绝口的系统架构图?秘诀是什么?快来打开这篇文章看看吧!...

matlab 基于奇偶校验的LSB隐藏水印 三种改进

频域分析实践介绍

晶振工作原理详解

食品安全 | 新鲜食品vs速食食品,哪一种是你的菜?

OpenCV安装、QT、VS配置项目设置

The site is not found after the website is filed. You have not bound this domain name or IP to the corresponding site! The configuration file does not take effect!

2022年SQL大厂高频实战面试题(详细解析)

关于Mysql服务无法启动的问题

GRUB2的零日漏洞补丁现已推出
随机推荐
Topology零部件拆解3D可视化解决方案
研发团队数字化转型实践
hcip第九天
开发工具:第五章:使用idea生成实体类
opencv基本的图像处理
XAML WPF项目groupBox控件
极化微波成像概述
golang json 返回空值
Live tonight!
史上最全的Redis基础+进阶项目实战总结笔记
实现mnist手写数字识别
关于2022年深圳市福田区支持高端服务业发展项目的申报通知
使用设备树时对应的驱动编程
关系运算符和if,else语句
块级元素、行内元素、行内块元素
The anxiety of the post-90s was cured by the vegetable market
金仓数据库 OCCI迁移指南(2. 概述)
我在启牛开户安全吗?谁能告诉我开不靠谱?
存储日报-数据湖架构权威指南(使用 Iceberg 和 MinIO)
tooltip 控件