登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息科学与技术 > 正文

基于在线学习的机场离港航班延误预测毕业论文

 2020-02-19 20:34:56  

摘 要

日益严重的航班延误问题对旅客、航空公司和机场都产生了一定的影响。论文从离港航班角度出发,建立离港航班延误时间预测模型,以达到离港航班延误预警的目的。

本文主要实现首都机场离港航班延误时间的预测。首先,论文分析了离港延误时间与数据集中各个影响因素的相关性。根据相关性系数,选取延误时间中位数、延误时间标准差、航空公司、到达机场、段数、时段作为特征。再根据选取的特征建立了神经网络模型,使用在线学习的方法训练模型。用训练后的模型预测某天起飞的航班延误时间,预测准确率为61.49%,误差为15分钟。最后将训练好的模型用Flask进行部署实现在线预测。

论文利用在线学习训练预测模型,解决了传统离线学习学习效率低,无法及时更新模型的问题。在线学习使得模型可以及时根据新产生的数据进行训练并更新,有利于模型保存和新数据信息的利用。

关键词:离港航班延误;神经网络;在线学习;在线预测

Abstract

The growing problem of flight delays has a significant impact on passengers, airlines and airports. From the perspective of departing flights, this paper establishes a forecast model of delay time for departing flights in order to achieve early warnings of flight delays.

This paper mainly realizes the prediction of the delay time of the flights departing from the Capital Airport. First of all, the paper analyzes the correlation between the delay time of departure flights and every influencing factor in the data set. Then the median delay time, the standard deviation of the delay time, the airline, the arrival airport, the number of segments, and the time period are selected as features based on the correlation coefficients to establish neural network model which trained through online learning. The prediction accuracy is 61.49% with an error of 15 minutes by using trained model to predict the flight delay time in on day. Finally, the trained model is deployed with Flask to achieve online prediction.

The paper uses the online learning training prediction model to solve the problem that traditional offline learning is inefficient and is hard to update the model in time. Online learning enables models to be trained and updated in time based on newly generated data, which facilitates the model's preservation and utilization of new data.

Key Words:departure flight delay; neural network; online learning; online prediction

目录

第1章 绪论 1

1.1 研究目的和意义 1

1.2 国内外研究现状 1

1.3 章节安排 2

第2章 预测方法及开发工具 3

2.1 人工神经网络 3

2.1.1 神经元模型 3

2.1.2 全连接神经网络 4

2.2 在线学习 5

2.3 开发工具 6

第3章 数据准备 8

3.1 原始数据集构建 8

3.1.1 爬虫获取数据 8

3.1.2 历史研究数据 9

3.2 数据活化 10

3.2.1 数据分析 10

3.2.2 数据预处理 12

3.2.3 特征提取 13

3.2.4 数据标准化 14

第4章 离港航班延误预测模型 15

4.1 基于在线学习的神经网络模型 15

4.1.1 神经网络结构 15

4.1.2 在线学习训练模型 16

4.1.3 模型预测结果及分析 19

4.2 模型部署 20

第5章 总结及展望 22

5.1 总结 22

5.2 展望 22

参考文献 24

附 录 25

致 谢 33

第1章 绪论

1.1 研究目的和意义

近年来,随着我国经济的高速发展,民航设备与技术的不断更新,我国民航业快速发展,航班需求量和旅客吞吐量不断增加,在资源有限的情况下,我国航班延误问题日益突出。对于旅客而言,航班延误给出行带来了不便,造成时间与经济的损失;对于机场而言,航班延误影响航班的正常运作;对于航空公司而言,航班延误造成了巨大的时间和成本损失[[1]]。

对于航班的延误问题,民航局提出了一些相关政策和治理措施,如细化相关单位的责任,为大面积航班延误制定应急方案。但是影响航班正常率的因素众多,如航空公司、起飞机场、天气等,使得制定的计划只能解决部分问题[[2]];一些学者也提出了许多预测模型对航班延误做出预警,但是大多是对于延误航班数量的预测,无法准确预估航班的延误时间;部分模型使用离线学习的方法对航班延误时间做出了预测,但是没有考虑到预测的实时性。不同于离线学习的将训练数据以数据集的方式输入,将模型一次训练好,在线学习的方法是将训练数据以数据流的方式输入,与此同时就已经将模型投入运行。在线学习每次输入一个样本或者一小批样本,得出预测值后,模型会获得正确结果,并用这一结果来修正模型,即在线学习的方法使得模型会根据不断流进的数据进行更新。其好处在于,随着时间的变化,模型不会一成不变,即使已经投入使用也会不断的进行更新,有利于预测的实时性。

每个机场每天都会产生新的航班数据,民航系统会获得大量数据,对于航班预测而言,及时处理获得的数据并利用这些数据预测航班延误情况具有重要的意义。

离港航班正常率是评价航空运输业运行服务质量和服务水平的重要指标之一,因此分析机场离港航班延误情况对于繁忙的机场意义重大。以离港航班为研究对象,分析机场航班离港的影响因素,预测不正常航班的延误时间,有利于提升管理部门的指挥决策能力,也可以为航班延误预警和航班应急处理系统提供技术支持[[3]]。

1.2 国内外研究现状

目前国内外学者对于航班延误问题已经做了许多的研究。如从空域的角度出发对大面积航班延误进行预测,顾绍康给出了基于Logistic模型的延误航班数量和累计延误航班数量的预测方法[[4]];从延误波及的角度考虑,刘玉洁基于贝叶斯网络的理论,面向枢纽机场和航班链内的航班延误与波及,提出了多种算法与学习方法,最后用一种自带有反馈的航班预测集成系统对枢纽机场某一段时间内的延误航班数量进行预测,并对特定航班的延误时间进行预测[[5]];从进离港航班的角度,何洋等人使用向后逐步选择算法分别分析出与机场单位小时进离港延误航班数和总延误时间相关的因素作为预测变量,建立多元线性回归模型和支持向量机回归模型,使用洛杉矶机场和浦东机场的航班起降数据进行模型的训练,预测机场单位小时进离港延误航班数和总延误时间[[6]];针对机场大面积延误问题,邵荃等人在航班延误波及分析的基础上建立了机场航班延误的贝叶斯网络分析模型,得到不同因素对机场航班延误的影响程度,以及不同时间段的延误情况[[7]]。近年来,由于人们获得的数据量越来越大,有学者使用数据挖掘技术解决航班延误预测问题[[8]],并且随着计算机计算能力的提升,逐渐有学者提出了使用大数据方法预测机场延误状态,Kim等人使用大数据方法预测机场延误状态,采用循环神经网络(long short term memory,LSTM)将时间维度特征考虑在内,并通过实验证明了模型的可扩展性[[9]]。胡皓月研究了航班延误预测的大数据解决方法,通过对比分析决策树个体学习和两种相关集成学习方法训练得出的模型性能指标,得出了在航班延误预测问题上使用集成学习中并行处理的随机森林及逆行预测模型的学习结果,并提出了流式学习的计算模式[[10]]。

1.3 章节安排

本文将建立基于在线学习的神经网络模型,实现对首都机场离港航班延误时间的预测。论文的章节安排如下。

第一章绪论,介绍研究航班延误的背景、目的及意义,简要说明国内外对于航班延误的研究角度和方法,并说明全文的章节安排。

第二章预测方法及开发工具,描述本文中主要使用的预测模型的理论和相关学习算法,包括神经网络模型和在线学习方法,然后介绍本文主要的开发工具。

第三章数据准备,阐述构建原始数据集的方法,并阐明对原始数据集进行分析和处理的过程。

第四章离港航班延误预测模型,介绍本文使用的神经网络模型结构、使用在线学习方法训练模型的过程以及模型的预测结果,并且阐明如何将训练好的模型进行部署,实现在线预测。

第五章总结及展望,阐述本文的主要工作内容以及本文的创新点,并提出需要进一步讨论的问题和建议。

第2章 预测方法及开发工具

2.1 人工神经网络

人工神经网络(Artificial Neural Network,ANN)简称神经网络(NN)。它是基于人脑神经网络的基本原理,在理解和提取人脑的工作机制后,在网络拓扑理论的基础上模拟人脑神经网络系统的结构、对复杂信息的处理机制和对外部刺激反应的一种数学模型。该模型结合了信息的处理和存储,具有并行分析、高容错和自学习的处理能力。它实际上是一个由大量简单组件互相连接形成的复杂网络,具有高度的非线性,可以进行复杂的逻辑运算和系统的非线性关系实现。

2.1.1 神经元模型

神经网络是一种运算模型。由大量的神经元(或称节点)之间相互连接构成。神经元是神经网络的核心和基本的处理单元。每两个神经元间的连接上都有一个权重(Weight),信号经过这个连接时与权重相乘。信号在神经元中进行加权求和和激活两个计算过程后输出。一个神经元的结构如图2.1所示。

图2.1 神经元模型图

图中的神经元模型包含三个输入,一个输出和两个计算过程。图中箭头线表示连接,每个连接上有一个权重,一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。图中的输出用表示,则输出结果表达式为:

(2.1)

其中:

:权重向量,:输入向量,:偏置,:激活函数。

激活函数是非线性函数,它的作用是实现非线性映射,使得神经网络可以解决复杂的非线性问题,常用的激活函数有sigmoid函数,tanh函数,ReLU函数等。其中sigmoid函数公式如下:

(2.2)

tanh函数的公式如下:

(2.3)

ReLU函数的公式如下:

(2.4)

2.1.2 全连接神经网络

感知器是一种由两层神经元组成的神经网络,包括输入层和输出层,其中输入层只负责传输数据,而输出层负责对前一层的输入进行运算。多层感知器也被称为全连接神经网络,它是由原始的感知器堆叠而成,至少包括一个隐藏层(除一个输入层和一个输出层外)[[11]],图2.2是一个典型的多层感知器模型。

图2.2 多层感知器模型图

图中的多层感知器模型包含一个输入层、一个隐藏层和一个输出层,其中标有“ 1”的圆圈为偏置节点,在计算每一层的节点数时偏置节点不被计算在内,所有的连接都是有权重的,即图中每一个箭头线上都有一个权重的值。输入层有2个节点,在输入层中不会进行任何的计算操作,只是将输入的东西做一个输入取值;隐藏层有3个节点,隐藏层的节点值取决于输入层所输出的数据和输入层上每个节点的权重,一般会在隐藏层对输入层输出的数据进行处理和相关计算,并通过一个激活函数,然后获得数据输出;输出层有1个节点,隐藏层的输出作为输入,在此节点进行计算后得到最终的输出。图中第k层第i个节点的输出用表示,神经网络最终输出用表示,则对应表达式如下:

(2.5)

(2.6)

其中:

:第k层的第i个节点到第k 1层的第j个节点的权值

:第k 1层第i个节点的偏置

:第k层的第i个节点的输出

:神经网络最终输出结果

:激活函数

以上的计算过程叫做“前向传播”,指的是信号从输入层,经过每一个神经元,直到输出神经元的过程。当层数和节点数增多时,计算方法与以上方法相同,只是i、j和k的取值范围不同。

神经网络的学习过程是通过前向传播计算预测值,然后计算出预测值和实际值的误差,通常这个误差用损失函数表示;再通过反向传播算法更新参数。重复这两个计算过程,使得最终的损失最小。其中反向传播算法是指对损失函数使用梯度下降法进行迭代优化求极小值的过程[[12]]。

在全连接神经网络中,同一层的神经元之间是没有连接的,每一层中的神经元一般只和下一层或上一层的神经元进行连接。输入层的节点数由输入特征的数量决定,隐藏层的层数和每一层的节点数根据要解决的问题设计决定,输出层的节点数根据所解决的问题决定,若是二分类问题和回归问题则是一个输出节点,若是多分类问题,则输出节点数由所分类别数决定。

2.2 在线学习

由于信息技术的高速发展,许多的领域会产生海量、高速到达的数据,这些数据具有动态性和实时性,于是出现了对此类数据进行实时处理的需求。然而针对此类呈数据流形式到达的数据,传统的离线学习方法存在学习时间长、学习效率低、难以有效更新模型的问题。不同于离线学习需要一次读取所有的数据进行训练,在线学习假定训练数据是连续到达的,每次训练只利用当前达到的样本进行训练,这样可以降低学习复杂度,同时每次训练只利用最新的样本进行训练更新模型,有利于保存和利用数据最新的信息。

在线学习也可以称为增量学习,它是指通过最新到达的一批样本实例训练模型的学习方法,它可以根据最新的反馈数据实时快速的进行模型调整,使得模型及时反映最新数据的变化。目前在机器学习领域已经提出了大量的在线学习算法,有最经典的在线学习二分类算法;对于线性不可分样本,有基于核的在线学习算法;针对多任务学习,出现了许多基于多任务的在线学习算法,如Group Lasso在线学习算法等;随着深度学习技术的不断发展,也出现了在线学习与深度学习相结合的学习方法[[13]]。

本文利用在线学习的方法对机器学习模型进行训练的流程如图2.3所示。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图