当前位置：网站首页>Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记

Deep Reinforcement Learning for Intelligent Transportation Systems: A Survey 论文阅读笔记

2022-07-03 02:39:00 【strawberry47】

这是一篇智慧交通领域的综述，侧重于讲解用强化学习解决交通信号灯管控 RL+TSC ；Traffic Signal Control ：交通信号灯管控，

一. Overview

分类：
AI based transportation applications:
① management applications,
② public transportation,
③ autonomous vehicles

这部分还介绍了很多RL的基本概念，目标网络、经验回放等等，都是强化学习领域的常见知识点，可以看我其他笔记~
在这里插入图片描述
交通信号灯管控：
state：队伍长度、车辆位置、车辆速度
目标：最小化十字路口的堵塞

二. 交通信号灯控制表示为 Deep RL 问题

2.1 state：

RGB图像，结合DQN；交叉口的快照（速度和位置）
Image-like representation/discrete traffic state encoding (DTSE)；优点：包含了丰富的信息，速度、位置、信号灯、加速度
feature-based value vector，向量表示；如：队伍长度、累计等待时间、一条车道的平均等待时间、信号灯持续时间、一条车道的车辆数
考虑更完整的道路信息

在这里插入图片描述

2.2 action：

一般是十字路口，需要考虑不同方向和持续时长；
四种绿灯阶段： North-South Green (NSG)南北方向通行, East-West Green (EWG)东西方向通行, North-South Advance Left Green (NSLG)南北方向可左转, East-West Advance Left Green (EWLG)东西方向可左转.

选择绿灯（四个方向中选一个绿灯）
binary action：保持当前or换方向
更新每个阶段持续时长

Q：只关心绿灯吗？
A：有的论文简化成两个绿色阶段：南北绿色和东西绿色，忽略了左转

2.3 reward：

等待时间
累计延迟
队伍长度
absolute value of the traffic data （流量数据）

2.4 Neural Network Structure：

MLP
CNN：和DQN结合
RNN：序列数据
AutoEncoder

2.5 仿真环境：

早期：Java-based Green Light District (GLD)
流行：Simulation Urban Mobility (SUMO)
成熟：VISSIM，AIMSUN（与MATLAB交互好）

三. Deep RL在交通信号灯控制中的应用

在这里插入图片描述

3.1 Standard RL Applications：

3.1.1 Single Agent Applications:

RL-based single intersection
会分成单交叉口和多交叉口交通

参考文献[57]将队伍长度作为state，总延迟时间作为reward；是第一篇binary action model；与固定时间的信号灯的场景对比
文献[60]首次提出真实交叉路口场景，提出了三种state定义。。。四个reward function。
（这部分相当于related work）

3.1.2 Multi-Agent Applications

协同控制多个十字路口

四种标准TSC算法（应该是常用baseline）：固定时间控制、随机控制、最长队伍优先、车辆最多优先
比较经典的算法（Wiering提出）：TC-1，TC-2，TC-3

state由红绿灯配置、车辆位置、车辆目的地构成，考虑到了局部和全局的特征（实际并不可行，因为车辆信息是未知的）
目的是减小等待时间

后续工作对Wiering工作的改进：
① 增加其他路口的堵塞信息
② 增加state size（通过增加堵塞信息）
③ 增加堵塞系数（instead of increasing the state space）
④ 加入堵塞和意外信息
⑤ 考虑协同信息
⑥ 多目标：vehicle stops, average waiting time, and maximum queue length are targeted as objectives for low, medium, and high traffic volume 根据不同场景进行不同设计reward function
Khamis的工作：
① 贝叶斯转移概率->reward function
② more specific objectives
③ seven objectives，加上了cooperative exploration function
related work：
① 分层强化学习
② R-Markov Average Reward
③ 考虑各个区域间的协同信息