登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于大数据的分布式互联网航运交通数据采集系统毕业论文

 2021-04-05 00:45:16  

摘 要

本文针对航运大数据系统的应用需求,介绍了一种基于大数据的分布式互联网航运交通数据采集系统,阐述了针对航运交通数据采集的基本原理和方法。针对航运大数据的特点,设计并实现航运大数据存储系统,论证并实现了航运交通数据和海事信息分布式、多线程采集方案,并对采集到的数据进行了初步的清洗和融合。

本设计首先在Hadoop服务器集群上实现了分布式文件系统,在此基础上利用HBase实现了分布式数据库,从而实现大数据存储系统。基于Python 3.6和相关软件包,本文重点分析了宝船网、国家海事局、中国船级社和长江航务局等目标网站的体系结构和运行机制,针对性地设计并实现了多线程航运数据专用采集器和分布式海事信息专用采集器,并在实际使用中对上述系统的结构和功能的性能进行了测试。本文对上述网络数据采集器采集到的数据进行了初步的清洗和融合,讨论了若干关于本系统中数据处理的问题。

截至发文,本文所述的数据采集系统已经上线运行一个月,并作为子系统为指导老师的航运大数据风险可视化平台服务。

关键词:数据采集; 航运数据; 分布式系统

Abstract

Shipping big data system that refers to a system that analysis big data in shipping involves the acquisition, storage, processing and visualization of big data, in which data acquisition plays a fundamental and leading role. This paper introduces a distributed Internet shipping traffic data collection system based on big data for the application requirements of shipping big data system, and expounds the basic principles and methods of big data, data acquisition, data storage and data cleaning. And then this paper also introduces how to design and implement the big data storage system, demonstrates and implements the distributed and multi-threaded collection scheme of shipping data and maritime information, and carries out preliminary cleaning and fusion of the acquired data.

This design first implements a distributed file system using Hadoop on a server cluster. Based on this, HBase is used to implement a distributed database to realize a big data storage system. Based on Python 3.6 and related software packages, this paper focuses on the architecture and operation mechanism of target websites such as mysips.com, National Maritime Safety Administration, China Classification Society and Changjiang Maritime Safety Administration, and specifically designed and implemented multi-thread shipping data collection. And distributed maritime information collectors, and tested the performance of the structure and function of the above system in actual use. In this paper, the data acquired by the above network data collector is preliminarily cleaned and merged, and some problems concerning data processing in this system are discussed.

By writing this, the data acquisition system which is described in this paper has been online for one month, and serves as a subsystem for the shipping big data risk visualization platform of my instructor.

Keywords:data acquisition; shipping data; distributed system

目 录

第 1 章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状 1

1.3 本文的结构 3

第 2 章 分布式数据采集系统的体系结构与方案设计 4

2.1 分布式数据采集系统需求分析 4

2.2 系统的总体设计方案 4

2.2.1 分布式大数据存储系统 5

2.2.2 航运数据采集子系统 6

2.2.3 海事信息采集子系统 7

2.2.4 数据融合与清洗 8

2.3 采集的合法性与合理性 8

第 3 章 大数据存储策略与实现 10

3.1 分布式系统与Hadoop平台的特点 10

3.2 使用Hadoop构建大数据存储系统 11

3.3 非结构化数据存储策略 12

3.4 结构化数据存储策略 12

3.5 大数据检索与管理 13

3.6 本章小结 14

第 4 章 航运数据采集子系统设计与实现 15

4.1 宝船网航运数据分布式采集器 15

4.1.1 单条数据的采集器设计与实现 15

4.1.2 分布式多线程批量数据采集器 18

4.2 海事局航运数据分布式采集器 21

4.2.1 解析网站验证并构建单条数据采集器 21

4.2.2 分布式多线程批量数据采集器 25

4.3 船舶档案采集器 28

4.4 本章小结 29

第 5 章 海事信息采集子系统设计与实现 31

5.1 使用聚焦爬虫设计海事信息采集器 31

5.2 子系统的体系结构与分布式采集方案 32

5.3 海事信息采集子系统的分布式更新策略 34

5.4 本章小结 35

第 6 章 数据融合与数据清洗 36

6.1 多源数据融合策略 36

6.2 清洗海事信息 38

第 7 章 系统测试与运行效果展示 40

7.1 分布式大数据存储系统测试 40

7.2 航运数据采集子系统测试 41

7.3 海事信息采集子系统测试 42

7.4 系统性能分析 43

第 8 章 总结与展望 45

8.1 研究总结 45

8.2 系统提升与未来展望 45

8.2.1 多模数据集成 45

8.2.2 自然语言处理 45

8.2.3 航运大数据可视化与实时风险评估 46

参考文献 47

附录 部分系统关键代码 49

附录1 解析长江海事局每个页面的详细信息部分代码 49

附录2 更新航运数据采集结果部分代码 50

附录3 更新海事信息每页列表部分代码 51

附录4 更新整个海事信息采集列表部分代码 52

致谢 54

绪论

研究背景及意义

大数据时代已经来临。吴军[1]指出,过去五十多年影响人类社会的根本动力是摩尔定律,而将来几十年真正会改变人类社会的将是大数据。大数据已经在改变我们的生活方式。

研究大数据的首要问题是采集大数据。为了能够更好地帮助用户获取网络信息资源,或者为科学研究工作提供数据信息,研究人员需要构建一个网络信息采集系统,其中就使用了网络爬虫从互联网上抓取网络数据。

本文所述的数据采集系统通过分布式网络爬虫完成对航运交通数据的采集。早期互联网中网页数量并不大,研究人员一般选择将网络爬虫程序放在单台机器中运行,以采集所需要的数据[2]。对于航运交通信息来说也是如此。但随着网络迅速的发展,目前互联网中网页的数量早已和过去不是一个量级了[3]。面对如此庞大数量的网页,仅仅想依靠单机版的网络爬虫程序获取足够多的数据是不太现实的,即便有高性能、高带宽的服务器支撑,爬虫自身的采集速度也远远跟不上网页增长的速度[4],因此,本文将采用支持扩展到多台机器的分布式网络爬虫,设计和实现一个快速、高效、安全、稳定的网络信息获取系统。这也是很有必要的。

网络数据采集技术领域已经有很多研究正在进行中。未来人们将进一步提高提高算法的效率,而且还可以提高搜索引擎的准确性和及时性。可以进一步扩展不同爬行算法的工作,以提高网络采集的速度和准确性[5-6]

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图