当前位置：网站首页>《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL ＆ Double Deep Q-Network

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL ＆ Double Deep Q-Network

2022-07-06 00:33:00 【智源社区】

关于周刊：

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第52期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、小胖）

关于周刊订阅：

告诉大家一个好消息，《强化学习周刊》开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

1，注册智源社区账号

2，点击周刊界面左上角的作者栏部分“强化学习周刊”（如下图），进入“强化学习周刊”主页。

3，点击“关注TA”（如下图）

4，您已经完成《强化学习周刊》订阅啦，以后智源社区会自动向您推送最新版的《强化学习周刊》！

论文推荐

本次推荐了15篇强化学习领域的相关论文，主要介绍了将卷积神经网络架构替换为 Swin Transformer 的自注意力架构以提高评估分数、通过强化学习集成语言学习与对比学习进行无人机Mapless导航高效决策、基于交易单一资产的 Double Deep Q-Network 算法对金融领域智能体行为形成初步见解、基于强化学习确定最佳电动汽车充电位置、基于深度强化学习开发增强的自我感知驾驶推荐系统，以促进修订交通管理关键控制器的政策措施、通过深度 Q 网络 (DQN) 与 Advantage Actor-Critic (A2C) 算法根据交通状况做出动态决策、基于多智能体深度强化学习（MDRL）模型以解决多智能体系统中的目标定位问题、通过新型的循环神经单元 STP 神经元 (STPN)以最大限度地提高效率和计算能力等。

标题：Deep Reinforcement Learning with Swin Transformer(奥斯陆大学：Li Meng | 基于Swin-Transformer的深度强化学习)

简介：Transformers是利用多层自注意力头的神经网络模型。注意力在transformers中实现为“key”和“query”的上下文嵌入。Transformers近年来在自然语言处理任务上表现出了优异的性能。Swin-Transformer将图像像素分割成小块，并在固定大小的（移位）窗口内应用局部自注意力操作。决策转换器已成功地将转换器应用于离线强化学习，并表明来自 Atari 游戏的随机游走样本足以让智能体学习优化行为。然而在线强化学习与transformers结合起来更具挑战性。本文探讨了不修改强化学习策略，而仅将卷积神经网络架构替换为 Swin Transformer 的自注意力架构的可能性。该目标是改变智能体看待世界的方式，而非智能体规划世界的方式。并在街机学习环境中对49个游戏进行了实验。结果表明，在强化学习中使用 Swin Transformer 在街机学习环境中的大多数游戏中取得了显着更高的评估分数。

当前位置：网站首页>《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL ＆ Double Deep Q-Network

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL ＆ Double Deep Q-Network

关于周刊：

关于周刊订阅：

论文推荐

边栏推荐

猜你喜欢

随机推荐