基于python的数据处理系统构建与应用文献综述
2020-04-15 20:29:28
1.1 选题的目的及意义
人工智能中首先包括知识工程,即根据已有的知识,利用规则解决问题。机器学习是人工智能的另一部分,也是核心技术,通过利用经验,建立统计模型、概率模型解决问题。是对某个实际问题建立计算模型,并利用已知的经验来提升模型效果的一类方法。当要处理和分析的数据中存在一定模式,想把其中的知识写成规则、形式化地确定下来,但无法一一穷尽时,就可以尝试使用机器学习的方法,将经验知识确定为一个模型,对输入进行处理[1]。
机器学习方法在大型数据库的应用称为数据挖掘。在数据挖掘中,需要处理大量的数据以构建简单有效的模型[1].数据科学可以被称为跨学科领域,有助于通过应用相关的数学、计算、科学方法从可用的广泛多维信息数据库(结构化,半结构化和非结构化)中提取有意义联系或模式见解[2],使用先进的分析平台和编程语言来处理不同规模和类型的大型数据库对于从相关数据中获得有意义的见解至关重要。这有助于在商业和研究领域内制定新战略或改进现有战略。随着数据数据科学的快速发展,各行各业的研究人员都可以通过众多的开源软件平台(Anaconda等)及各类编程语言(Matlab、Python,R等),在自己的研究领域内应用机器学习等方法,更好地指导研究工作[3]。
虽然数据科学发展迅速,机器学习、Python语言的学习与运用越来越火热,但在我国,对车载数据应用数据分析的研究却并不多,这最主要是由于从运行车辆采集数据的合法性问题所导致的。2018年6月,《重型柴油车污染物排放限值及测量方法(中国第六阶段)》正式发布,并将于2019年7月1日正式实施。国Ⅵ标准的发布使得从运行车辆采集数据回传至服务器成为一种合法行为,必然会导致车载数据持续地的大量产生和积累,为在车辆排放、车辆控制领域应用大数据机器学习方法进行数据分析准备了条件。使用Python编程语言和机器学习的方法对车载数据进行分析,分析各变量之间的相关性,为相关控制参数的选择具有参考作用,对于分析研究领域内的其它数据也具有重要借鉴作用。
Python是一种解释型、支持面向对象特性的、动态数据类型的高级程序设计语言。由于Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多。众多开源的科学计算软件包都提供了Python的调用接口。而Python也自带有专用的科学计算扩展库(Numpy、SciPy、Matplotlib等),因此Python开发环境十分适合工程技术、科研人员处理实验数据、制作图表,进行数据分析处理,数据可视化等工作。2011年1月,在TIOBE编程语言排行榜中,它被评为2010年度语言。在2017年5月的编程语言排行榜中, Python语言首次超越Java,跃居第一。Python 已经成为最重要的编程语言之一,是数据分析的首选语言[4]。
Anaconda是世界上最受欢迎的数据科学平台之一,除了可以从Anaconda存储库安装的250个开源扩展库之外,还有150多个预安装扩展库。用户可以使用Anaconda云,PyPi和其他存储库构建自定义包并共享它们。Anaconda云有数千个可供使用的由世界各地的程序员开发的扩展库[3]。