基于大数据的分布式互联网航运交通数据采集系统文献综述
2020-04-14 17:26:33
本毕业设计的选题名称为《基于大数据的分布式互联网航运交通数据采集系统》。数据采集是大数据系统的重要组成部分,它涉及到海量数据的抓取、存储、清洗和预处理等工作。本毕业设计要求在学习大数据、数据采集等技术的基础上,基于Python语言,利用大数据平台,针对航运交通大数据系统的应用需求,开发一个基于大数据的分布式互联网航运交通数据采集系统。
1.1 研究的目的
为了能够更好地帮助用户获取网络信息资源,或者为我们自己的研究工作提供数据信息,我们需要构建一个网络信息获取系统,其中就使用了网络爬虫从互联网上抓取网页信息。
此数据采集系统通过分布式网络爬虫完成对航运交通数据的采集。早期互联网中网页数量并不大,开发者一般选择将网络爬虫程序放在单台机器中运行,以采集所需要的数据。对于航运交通信息来说也是如此。但随着网络迅速的发展,目前互联网中网页的数量早已和过去不是一个量级了。面对如此庞大数量的网页,仅仅想依靠单机版的网络爬虫程序获取足够多的信息是不太现实的,即便有高性能、高带宽的服务器支撑,爬虫自身的采集速度也远远跟不上网页增长的速度,因此,我们将采用支持扩展到多台机器的分布式网络爬虫,设计和实现一个快速、高效、安全、稳定的网络信息获取系统。这也是很有必要的。
1.2 国内外研究现状分析