登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 电子信息类 > 电子信息工程 > 正文

基于大数据的分布式互联网航运交通数据采集系统文献综述

 2020-04-14 17:26:33  

1.目的及意义

本毕业设计的选题名称为《基于大数据的分布式互联网航运交通数据采集系统》。数据采集是大数据系统的重要组成部分,它涉及到海量数据的抓取、存储、清洗和预处理等工作。本毕业设计要求在学习大数据、数据采集等技术的基础上,基于Python语言,利用大数据平台,针对航运交通大数据系统的应用需求,开发一个基于大数据的分布式互联网航运交通数据采集系统。


1.1 研究的目的


为了能够更好地帮助用户获取网络信息资源,或者为我们自己的研究工作提供数据信息,我们需要构建一个网络信息获取系统,其中就使用了网络爬虫从互联网上抓取网页信息。

此数据采集系统通过分布式网络爬虫完成对航运交通数据的采集。早期互联网中网页数量并不大,开发者一般选择将网络爬虫程序放在单台机器中运行,以采集所需要的数据。对于航运交通信息来说也是如此。但随着网络迅速的发展,目前互联网中网页的数量早已和过去不是一个量级了。面对如此庞大数量的网页,仅仅想依靠单机版的网络爬虫程序获取足够多的信息是不太现实的,即便有高性能、高带宽的服务器支撑,爬虫自身的采集速度也远远跟不上网页增长的速度,因此,我们将采用支持扩展到多台机器的分布式网络爬虫,设计和实现一个快速、高效、安全、稳定的网络信息获取系统。这也是很有必要的。


1.2 国内外研究现状分析


剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图