大规模轨道交通数据分析系统毕业论文
2021-04-05 00:35:26
摘 要
由于近年来城市轨道交通的快速发展和轨道交通客流量的升高,城市轨道的运维压力日渐增大。在传统的轨道交通调度中方案设计采取数据统计的方法,根据历史数据的统计结果和日常运行经验在高峰期或节假日等时间加开车次,在人流量较少的时候减开车次,来实现调整地铁运营调度。这种方法是由调度员根据历史数据和经验来进行调度方案设计,因此调度方案并不准确。而且由于数据量较少,设计调度方案时只能精确到如早晚高峰这样的时间段,所以只能宽泛的对调度方案进行决策,并不能十分有效的解决地铁拥堵的问题。
本文提供了一种基于大数据和人工神经网络的地铁人流量预测方法。通过采集地铁系统的刷卡数据,将采集到的原始数据存储到Hadoop平台中,然后在spark平台上对地铁刷卡数据进行处理,得到预处理结果。然后将预处理后数据引入到人工神经网络中作为输入层数据来预测各个站点五分钟后的人流量,为地铁调度提供依据。
研究结果表明:通过量化分析对比,采用本文方法得到的预测结果精度达到了87.07%,且能够根据固定的技术路线来提升预测的准确性,证明文章提出的预测方案是可行的。与传统的依靠人员经验来预测人流量的方法相比,基于大数据和人工智能网络来预测人流量的优势在于不仅将预测结果的准确性大幅度提高,而且将预测从人工预测的早晚高峰时间段预测提升到预测五分钟以后人流量的水平。用此方案得到的客流量预测值来提前制定城轨系统的调度方案,能够大大增加城市轨道交通调度的效率,减小轨道交通系统的运维压力。
本文的特色在于:将基于大数据的数据分析和人工神经网络结合起起来,通过将大数据处理所得的精确的数据结果用于符合地铁站点客流量变化情况的非线性预测手段中,实现预测城市轨道交通站点客流量的目的。
关键词:轨道交通;大数据;人工神经网络;非线性预测
Abstract
Due to the rapid development of urban rail transit and the increase of rail traffic flow in recent years, the operation and maintenance pressure of urban track is increasing. In the traditional rail transit dispatching scheme design adopts the method of data statistics, according to the data statistics of historical statistics and daily operation experience in the peak period or holidays and other time plus driving times, in the human flow is less time to reduce driving times, to achieve the adjustment of metro operation scheduling. However, this method is designed by the dispatcher according to historical data and experience, so the scheduling scheme is not accurate.
And because the amount of data is small, design scheduling scheme can only be accurate to such as the morning and evening peak such a time period, so only a broad decision on the scheduling scheme, and can not be very effective to solve the problem of subway congestion. In this paper, a method of metro human flow prediction based on big data and artificial neural network is provided. By collecting the credit card data of the subway system, the raw data collected are stored in the Spark platform, and then the Metro card data is processed on the spark platform and preprocessed.
However, the preprocessed data is introduced into the artificial neural network as input layer data to predict the human flow after five minutes of each site, which provides the basis for Metro dispatching. The results show that, through quantitative analysis and comparison, the accuracy of the prediction results obtained by this method is 87.07%, and the accuracy of the prediction can be improved according to the fixed technical route. It is proved that the prediction scheme proposed in this paper is feasible. Compared with the traditional method of relying on people's experience to predict human traffic, the advantage of predicting human traffic based on big data and artificial intelligence network ANN is that not only the accuracy of prediction results is greatly improved, but also the prediction from the morning and evening peak time period of manual prediction is increased to the level of human flow after five minutes.
It can greatly increase the efficiency of urban rail transit dispatching and reduce the operation and maintenance pressure of rail transit system by using the traffic forecast value obtained by this scheme to make the dispatching scheme of the city rail system in advance. The characteristics of this paper are as to combine data analysis and artificial neural network based on big data, and realize the purpose of predicting the traffic of urban rail transit site by using the accurate data results obtained from large-volume processing to be used in nonlinear forecasting means to meet the changes of passenger traffic in metro stations.
Key Words: rail trainsit;Hadoop;Artificial Neural Network combustion
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.2.1 国内研究现状 1
1.2.2 国外研究现状 2
1.2.3 国内外研究现状总结 3
1.3 大规模城市轨道交通系统研究内容与研究计划 4
第2章 相关知识介绍及整体方案的设计 5
2.1 Spark平台介绍 5
2.2 整体方案设计 5
第3章 数据采集与存储和数据的预处理 8
3.1 数据采集与存储方案设计 8
3.1.1 地铁系统数据采集方案设计 8
3.1.2 数据库设计 9
3.1.3 地铁系统数据在HBase数据库中存储 11
3.2 数据预处理方案设计 12
3.2.1 数据质置与数据预处理的问题分析 12
3.2.2 数据清洗和归一化 14
3.2.3 数据统计模块设计 19
3.3 预处理后数据 21
第4章 人流量预测与结果分析方案的制定 22
4.1 ANN原理介绍及建模与 22
4.1.1 原理描述 22
4.1.2 城市轨道交通人流量预测ANN建模 22
4.1.3 ANN算选择及实现 23
4.2 精度分析方法及预测方案的制定 26
4.2.1 精度分析方法制定 26
4.2.2 由精度分析结果制定提升预测精度的方案 28
4.2.3 精度提升方案的负反馈验证 29
第5章 预测结果分析 30
5.1 误差统计 30
5.2 精度分析 30
5.2.1 预测模型中样本n值变化对同一站点预测精度的影响 30
5.2.2 预测模型中样本m值变化对同一站点预测精度的影响 31
5.2.3 预测模型中样本n值和m值同时变化时对同一站点预测精度对比 33
5.2.4 样本相同时不同站点预测精度对比 33
5.3 数据量改变对精度造成的影响 34
5.3.1 输入预测模型的数据对预测精度造成的影响 34
5.3.2 精度提升方法的负反馈验证 34
第6章 总结与展望 35
6.1 总结 35
6.2 展望 35
参考文献 37
致 谢 38
第1章 绪论
1.1 研究背景及意义
近年来,城市轨道交通呈现着网络化的趋势,同时各地政府也在积极推动城轨系统的智能化、信息化,在这些浪潮中,数据是关键的一环。在大规模轨道交通数据分析中,由于数据的规模已经大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具的能力范围,因此不可避免的要引入大数据,对这些含有意义的数据进行专业化处理[1]。目前,在轨道交通大数据分析中,主要进行的是数据的清洗、整理与分析,但这还不能够满足轨道交通发展的需要。人们想要从这些数据中获取更多、更有用的信息以支撑轨道交通的运行,减少运维的压力,基于此需求,本文提供了一种基于轨道交通大数据的人流量预测方案,目的在于通过对地铁历史刷卡数据的处理来预测地铁的人流量,为制定地铁调度方案提供参考依据,达到减少运维压力、提升运输效率的目的[2]。
在城市轨道交通系统中,运营调度的特点是根据不同时段的断面客流,合理的安排一定调度方案。而地铁运营是一个动态的变化的过程,运营中的各种情况都具有随机性、复杂性。在传统的调度方法中,不同断面客流量的获取仅是历史数据,且数据量较少,无法很好的面对运营中的随机性、复杂性。为了更好的设计运营调度方案,就对不同断面客流量的获取提出了更高的要求。目前地铁的客流统计主要是靠进出站闸机的刷卡投票来统计的,每位乘客进出站的时候刷卡和投入单程票都会产生一个刷卡数据。这些数据的特点是数据量巨大且十分准确,如果以此为依据来进行大数据分析,将能解决传统方案中数据量不足和不同断面客流量不准确的问题,且能根据人工神经网络系统算法对每个站点客流量进行预测,以此得到的更准确的、可预测的断面客流量[3]。按照这个方案得到的客流量预测数据来提前制定地铁运营调度方案,可以把地铁调度精确到每个站点的停留时间,将会大大提高地铁运营调度的效率,更好的面对地铁运营的随机性和复杂性。
1.2 国内外研究现状
1.2.1 国内研究现状
国内城市轨道交通大数据的研究对象主要是各个城市可共享的地铁数据,在我国大城市人口密度较高的基本国情和地铁系统设施完备的情况下,我国地铁数据的特点是拥有海量的数据和丰富的获取渠道,因此在城市轨道交通大数据应用方面有着天生的的优势。