基于深度强化学习的交通灯控制研究开题报告
2020-02-10 23:10:13
1. 研究目的与意义(文献综述)
随着社会经济的发展,城市化和汽车化速度的加快,交通拥挤、交通事故、交通污染、能源短缺等问题已经成为制约我国社会经济全面、协调 、可持续发展的重要因素。目前,解决交通问题的方法通常有两种:一是加强基础设施建设,如提高路网的通行能力、扩建桥梁与道路等外延设施;二是提高交通控制和管理水平,采用先进、有效的智能决策方法,合理使用现有交通设施,充分发挥其能力。近年来,随着信息技术的迅速发展,后一种办法受到了人们的普遍重视。而作为城市道路交通管理的核心部分,城市交通信号配时决策系统是实现城市道路交通流有效运行的重要保障。
对于显著缓解城市路网的交通拥挤问题,自适应交通信号配时决策有很大的应用潜力,而目前其在中国各大城市的应用程度并不高。由于城市路网中各交叉口处的交通流 是相互关联和影响的(特别是在较高饱和度交通条件下),各交叉口控制策略间存在博弈现象。因此为了更有效地进行多交叉口交通信号配时决策,有必要引入协调机制。因此,融合多agent强化学习和协调机制来进行路网自适应交通信号配时决策研究是多年来的一个热点问题。本文对多agent强化学习及协调机制研究方法分类、国内外研究现状、存在的问题及未来研究方向进行了探讨,以期促进多agent强化学习及其协调机制的研 究和其在城市交通信号配时决策中的应用。
国内一些学者如首艳芳、杨兆升、陆化普等、刘智勇进行了有关自适应交通信号配时决策的理论和应用研究,取得了可喜的成果。近年来北京工业大学、清华大学、北京交通大学、上海交通大学等著名高校就多agent强化学习技术在自适应交通信号配时决策中的应用开展了卓有成效的探索性研究。
2. 研究的基本内容与方案
本设计研究了如何利用车辆网络中提取的信息来控制交通灯信号,从而有效地管理交叉口的车辆。我们的总体想法是模仿一个有经验的操作员,根据从车辆网络收集的信息控制每个周期的信号持续时间。为了实现这一思想,将有经验的操作者的操作建模为马尔可夫决策过程(MDP)。MDP是一个高维模型,包含每个阶段的持续时间。然后在一个深度强化学习模型中,通过试错法学习基于MDP的控制策略。为了适应一个深度强化学习模型,我们将整个交叉口划分成网格,并根据车辆网络收集的网格中的车辆信息或通过图像处理从摄像机中提取的信息建立一个矩阵。矩阵被定义为状态,奖励是两个循环之间的累计等待时间差。在我们的模型中,使用卷积神经网络来匹配状态和预期的未来回报。我们的最终目的就是最小化交通拥堵,即最大化未来的回报,确定一个可以根据环境变化而做出最优决策的模型。
我们将使用多智能体强化学习结合深度学习,通过确定合理的行为空间、状态空间和奖励来是我们的模型做出最优策略。本文将这些技术结合起来作为解决问题的框架,可以很容易地应用到其他问题中。在交通微观仿真系统SUMO上对该系统进行了测试,仿真结果表明了该模型的有效性和高效性。
3. 研究计划与安排
1-3周:查阅资料并完成论文开题
4-6周:阅读相关文献并完成理论相关技术理论研究。
7-10周:完成本课题的理论与技术研究内容,并开始设计算法。
11-13周:检验修改算法,完成相关仿真实验与验证工作。
14-16周:完成论文的撰写以及格式的修改、答辩准备工作。
17周:论文答辩。
4. 参考文献(12篇以上)
[1] monireh abdoos, nasser mozayani, andana lc bazzan. 2013. holonic multiagent system for traffic signals control.engineering applications of artificial intelligence 26, 5 (2013), 1575–1587.
[2] baher abdulhai, rob pringle, andgrigoris j karakoulas. 2003. reinforcement learning for true adaptive trafficsignal control. journal of transportation engineering 129, 3 (2003), 278–285.
[3] itamar arel, cong liu, t urbanik,and ag kohls. 2010. reinforcement learningbased multi-agent system for networktraffic signal control. iet intelligent transport systems 4, 2 (2010), 128–135.