当前位置:网站首页>3、多智能体强化学习

3、多智能体强化学习

2022-07-07 23:21:00 C--G

基本概念

Settings

在这里插入图片描述

  • Fully Cooperative Setting
    在这里插入图片描述
    在这里插入图片描述
  • Fully Competitive Setting
    在这里插入图片描述
    在这里插入图片描述
  • Mixed Cooperative & Competitive
    在这里插入图片描述
    在这里插入图片描述
  • Self-Interested Setting
    在这里插入图片描述
    在这里插入图片描述

基本术语

  • State,Action,State Transition
    在这里插入图片描述

  • Rewards
    在这里插入图片描述

  • Returns
    在这里插入图片描述

  • Policy Network
    在这里插入图片描述

  • Uncertainty in the Return
    在这里插入图片描述

  • State-Value Function
    在这里插入图片描述
    在这里插入图片描述

Convergence

  • Single-Agent Policy Learning
    在这里插入图片描述
  • Multi-Agent Policy Learning
    在这里插入图片描述
  • Difficulty of MARL
    Single-Agent Policy Gradient for MARL在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Architectures

在这里插入图片描述
在这里插入图片描述

Fully Decentralized

  • Execution
    在这里插入图片描述
  • Actor-Critic Method
    在这里插入图片描述

Fully Centralized

在这里插入图片描述

  • Method
    在这里插入图片描述
    在这里插入图片描述
  • Shortcoming:Slow during Execution
    在这里插入图片描述

Centralized Training with Decentralized Execution

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Parameter Sharing

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

原网站

版权声明
本文为[C--G]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_50973728/article/details/125661807