我们提出了AttendLight,一种用于交通信号控制问题的端到端强化学习(RL)算法。以前解决这个问题的方法有一个缺点,即它们需要对具有不同结构或交通流分布的每个新交叉口进行训练。AttendLight通过为具有任意数量的道路、车道、相位(可能的信号)和交通流的交叉口训练一个单一的通用模型来解决这个问题。为此,我们提出了一个包含两个注意力模型的深度RL模型。引入第一注意模型来处理不同数量的道路车道;而第二注意力模型旨在实现交叉口中任意数量阶段的决策。因此,我们提出的模型适用于任何交叉口配置,只要在训练集中表示类似的配置。实验使用合成和真实世界标准基准数据集进行。我们的数值实验涵盖了三条或四条接近道路的交叉口;单向/双向道路,有一条、两条和三条车道;不同相数;以及不同的交通流。我们考虑两种制度:(i)单环境训练,单部署;(ii)多环境训练,多部署。AttendLight在两种方案中的所有情况下都优于经典和其他基于RL的方法。

随着城市化的出现和家庭汽车保有量的增加,交通拥堵已成为许多人口稠密城市的主要挑战之一。交通拥堵可以通过道路扩展/修正、完善的道路通行许可规则或改善交通信号控制来缓解。尽管这两种解决方案都可以减少出行时间和燃料成本,但由于资金资源有限,以及寻找更有效策略的机会有限,优化交通信号更为方便。本文介绍了一个学习通用交通控制策略的框架,该策略可以部署在感兴趣的交叉口,并缓解交通流。控制信号交叉口的方法可分为两大类,即传统方法和自适应方法。在前者中,习惯上基于规则的固定周期和阶段时间是基于历史测量以及关于潜在问题结构的一些假设而先验和离线确定的。然而,由于交通行为是动态变化的,这使得大多数传统方法效率很低。在自适应方法中,根据交叉口的当前状态进行决策。自组织交通灯控制(SOTL)[12]和最大压力[28]是最流行的自适应方法之一,在其交通控制算法中考虑了接近交叉口的车辆数量(参见,例如[14]了解更多详细信息)。这些方法大大改善了交通信号控制;尽管如此,他们目光短浅,没有考虑决策对交通的长期影响。此外,这些方法没有利用以前行动的反馈来做出更有效的决策。作为回应,人们提出了更复杂的算法。使用人工智能(AI)控制交通信号最近引起了很多关注,因为它可以为减少城市拥堵带来巨大的潜在好处。近年来在人工智能社区蓬勃发展的强化学习(RL)[26]在游戏[25]、机器人[13]、金融[11]和运筹学[7]等一系列问题上表现出优异的性能,仅举几个例子。这与RL在交通信号控制问题(TSCP)中越来越多的应用相吻合[15,16,22,29,37]。尽管RL方法在广泛的交叉口领域取得了巨大的改进,但大多数方法的主要局限性在于,无论何时面对具有不同拓扑或交通分布的不同交叉口,都需要从头开始重新设计和训练所提出的模型。学习每个单独交叉口的专用策略可能是有问题的,因为不仅RL代理必须为每个交叉口存储不同的策略,而且在实践中数据收集资源和准备会带来成本。这些成本包括人类专家建立新模型的时间负担,以及训练和调整新模型的计算资源。因此,对于一个拥有数千个不同十字路口的城市来说,这种繁琐的程序是否可行尚不清楚。在使用迁移学习部分缓解此类问题方面,已有一些先前的工作[30,37];然而,训练的模型仍然需要针对不同的交叉口结构进行操作,并且需要重新训练以获得合理的性能。为了解决这些问题,我们将注意力模型[5]中的想法引入TSCP。我们的目标不是专门针对单个交叉口,而是设计一种在一组交叉口中具有令人满意性能的机制。注意机制是一种自然的选择,因为它们允许通过处理可变长度输入来统一系统表示。我们提出了AttendLight框架,一种强化学习算法,用于训练一个“通用”模型,该模型可用于任何交叉口,具有任意数量的道路、车道、相位、交通分布和测量交通的传感数据类型。换言之,一旦在相位、道路、车道和交通分布的综合集合下训练模型,我们训练的模型就可以用于新的看不见的交叉口,并且只要交叉口配置遵循训练集中存在的模式,它就可以提供合理的性能。我们发现,AttendLight架构可以提取交叉点状态的抽象表示,而无需任何额外的基础或重新定义,并重复使用这些信息进行快速部署。我们表明,我们的方法大大优于纯常规控制和FRAP[37],这是最先进的基于RL的方法之一。


