基于python的数据处理系统构建与应用毕业论文
2021-04-08 21:40:52
摘 要
车辆数据采集的合法化、规范化,将会使得大量结构多样、信息完善、数据丰富的车辆运行信息的数据持续不断地产生和积累,因而尝试使用大数据的方法对这些数据进行数据分析,找出数据之间的联系,对于运行车辆的实时监测及控制优化具有指导意义。
本文简单介绍了大数据及其应用流程、Python及其开发环境的搭建,然后基于早期运行车辆的部分历史数据,初对数据预处理的流程和使用线性回归的方法训练NOX预测模型的方法做了初步探索,并对其结果和性能做出初步分析,最后展示了使用爬虫从天气查询网站获取天气数据的方法。
本文针对使用的数据,构建了具有数据导入、数据探索、数据预处理、建模及模型验证的数据分析流程,其中,数据预处理主要包括数据清理、数据转换和属性约简。该流程对于数据的处理和分析具有一定的参考意义。爬虫能够根据输入快速地获取相应的实况天气数据,但其结构上有待进一步优化。
关键词:大数据、Python、数据预处理、NOX预测模型、爬虫
Abstract
The legalization and standardization of data collection of vehicle will lead to the continuous generation and accumulation of huge number of multiple structured,perfect and informative vehicle data. Therefore, trying to apply big data technology to analyze the data and find The connection between the data is instructive for the real-time monitoring and control optimization of the running vehicle.
This paper briefly introduces the big data and its process of application , the construction of Python and the setting of its development environment. Then based on the historical data of running vehicles of the early time, This paper explores the process of data preprocessing and the method of training NOX predictive model using linear regression method, and have a preliminary exploration and analysis of the r performance and results. Finally, the paper show the method for obtaining weather data from the weather query website with crawler .
This paper build a data analysis process with data import, data exploration, data preprocessing, modeling and verification for the data used. The data preprocessing mainly includes data cleaning, data conversion and attribute reduction. This process has certain reference significance for data processing and analysis. The crawler can quickly obtain the real-time weather data based on the input, but its structure still needs further optimize.
Keywords: big data, Python, data preprocessing, NOX predictive model, crawler
目 录
第1章 绪论 1
1.1 课题研究的背景及意义 1
1.2 国内外研究现状 1
1.3 研究的主要内容 1
第2章 大数据及Python简介 2
2.1 大数据方法 2
2.1.1 大数据概述 2
2.1.2 大数据关键技术 2
2.1.3 大数据框架 3
2.1.4 大数据分析流程 3
2.2 Python简介 5
2.3 Python环境安装 5
2.3.1 Anaconda安装 5
2.3.2 Pycharm 安装 6
2.3.3 搭建Python运行环境 6
第3章 数据导入及数据探索 8
3.1 使用Pandas读取并整合数据 8
3.1.1 Pandas简介 8
3.1.2 数据导入 8
3.2 数据探索 9
3.2.1 数据集物理特性 9
第4章 使用Python对数据进行预处理 12
4.1数据预处理综述 12
4.1.1 数据清理 12
4.1.2 数据集成 13
4.1.3 数据变换 13
4.1.4 数据约简 13
4.2 对数据进行预处理 14
4.2.1 数据清理 14
4.2.2 数据变换 15
4.2.3 数据的可视化展示 16
4.2.4 使用前向逐步回归筛选最佳子集 21
4.3 选择算法建模并验证 22
4.3.1 算法选择 22
4.3.2 训练及评估预测模型 22
4.4 编写Python天气爬虫 25
4.4.1拟采用技术路线 25
4.4.2 过程及结果展示 25
第5章 总结与展望 27
5.1 总结 27
5.2 展望 27
参考文献: 28
致 谢 30
第1章 绪论
1.1 课题研究的背景及意义
物联网技术的发展使得数据采集变得更加的方便、快捷,各行各业都在不断的产生和积累大量的数据,因而大数据也开始越来越多的应用到新的行业之中。应用大数据的方法对这些数据进行数据分析,发掘其中隐藏的学术价值和商业价值,对于指导实验研究和商业运行具有重要参考作用。
柴油车对排放影响很大,2016年,我国柴油车总数仅占机动车保有量的6.4%,而其NOX排放竟占机动车排放的63.6%,其PM更是占到了99%以上[1]。所以,对于柴油车排放的检测和优化,是实现节能减排的关键之一。《重型柴油车污染物排放限值及测量方法(中国第六阶段)》将于2019年7月1日正式实施。该法规中规定了从正在运行的车辆采集及写入数据的合法性的问题[2],使得研究人员为车辆安装数据更加完善的数据采集系统获取正在运行车辆的实况的部分运行及排放数据成为可能。新法规的实施将会源源不断地产生运行车辆的实况数据,并将积累海量的运行历史数据。所以应用大数据处理方法对实时数据及大量历史数据进行分析,挖掘数据之中如变量之间的关系、多变量之间的多元关系等有用信息,对于指导实验研究,进行敏感性分析、实时检测和优化重型柴油车排放等有着参考作用。本文基于现有的车辆运行数据,探讨和构建对其进行数据分析所需要的流程及编写爬虫获取所需要的天气数据,为将来在柴油车运行数据上应用数据挖掘等大数据方法提供参考。
1.2 国内外研究现状