大数据架构设计与实施毕业论文
2021-05-06 12:38:53
摘 要
随着计算机技术和互联网的高速发展以及智能终端的运用普及,各种信息的产生与传递速度越来越快,各类数据也呈现出爆炸式的增长现状,海量数据慢慢占据我们的生活。面对形形色色的巨大数据量,大家不仅仅只关注对于数据的获取,而是开始着手于从海量的数据中提取有价值信息,进行数据挖掘。但是,传统的数据存储和处理方式已经不能够适应数据的增长速度,并且这些海量数据的存储数据结构不统一,存储格式也多种多样,处理起来相当麻烦。
本文首先对大数据进行研究,然后在基于大数据的特点和实际需求的基础上,分析多种大数据相关的存储分析技术,最终选择针对大数据存储与处理的开源分布式计算平台Hadoop进行深入研究,并基于Hadoop进行大数据架构设计与部署,最终配置出批量数据处理平台。
关键词:海量数据;Hadoop; HDFS; Map/Reduce
Abstract
With the use of high-speed development of computer technology and the Internet as well as the popularity of intelligent terminals, produces a variety of information transmission speed faster and faster, but also various types of data showing the status of explosive growth, mass data slowly occupy our lives. Faced with the huge amount of data of all kinds, we not only concerned with obtaining the data, but started to extract valuable information from vast amounts of data, and data mining. However, the traditional way of data storage and processing is no longer able to accommodate data growth, and data structures of these huge amounts of data is not uniform, a variety of storage formats, the process is pretty cumbersome.
This article first study of big data, and then based on the characteristics of the large data and actual demand, on the basis of analyzing a variety of large data related storage analysis technology, finally choice for large data storage and processing of Hadoop open source distributed computing platform for further research, and based on Hadoop data architecture design and deployment, the final configuration of mass data processing platform.
Key Words: mass data; Hadoop; HDFS; Map / Reduce; control node
目 录
第1章 绪论 1
1.1 选题的背景和意义 1
1.2 国内外研究现状 1
1.2.1 国外研究现状 2
1.2.2 国内研究现状 2
1.3 本文主要研究内容及技术路线 3
第2章 大数据及其相关技术 4
2.1 大数据 4
2.1.1 大数据定义 4
2.1.2 大数据分析 5
2.2 NoSQL数据库 6
2.3 Hadoop 6
第3章 基于Hadoop的大数据架构设计 8
3.1 Hadoop体系架构 8
3.2 Hadoop核心设计 8
3.2.1 HDFS 8
3.2.2 MapReduce 9
3.2.3 HBase 10
第4章 基于Hadoop的大数据架构部署 11
4.1 环境安装与配置 11
4.1.1 JDK 11
4.1.2 Cygwin 11
4.1.3 Hadoop 13
4.2 试运行 15
4.3 应用实例 16
第5章 结论 20
5.1 总结 20
5.2 展望 20
参考文献 21
致谢 22
第1章 绪论
1.1 选题的背景和意义
在信息化时代的新形势下,互联网得到了飞速发展,各种互联网类型的产品也都应运而生。智能家居、智能公交、智能电视等等IT互联的产品在我们的生活中随处可见;Facebook、微博、微信、QQ各种社交软件带给我们无限制交流的便利。我们生活在日新月异的网络世界,生活中处处都是信息的产生与传递,各种各样的数据也呈现出爆炸式的增长,大数据的时代已经来临。
然而大数据拥有与众不同的特性,与以往的传统数据不一样,它是离散的、不具备结构化、并且数据的体积也越来越大,难以管理。大数据的出现,已经超过了传统的存储和分析技术所能承载的容纳范围,大数据中巨大的数据量以及这些数据的形态各异,都给服务器的软件和硬件带来了大的挑战。伴随着互联网 时代的来临,数据能否快速进行有效存储对于企业而言也是一个严峻的考验,因此对于急需改变自己传统IT架构的企业来说,引入新的高效的大数据分析方法来从大数据中提取有用的信息是很有必要的,这样不仅能存储并分析处理海量有效数据,而且优化企业的业务流程,促进企业长远发展。
Hadoop技术一直被运用于大数据处理领域,并通过不断完善和实践运用,如今已经成长为最为成功的被广泛使用在大数据处理领域的主要技术和架构平台,并且也成为其他大数据处理方式的工业范本,在业界和应用行业特别是IT相关行业得到了大范围的应用和发展。Hadoop提供了一个高效的分布式的数据存储与处理的平台,是Apache的一个开源项,实现了HDFS和MapReduce编程模式,能够批量处理大规模数据,使用Hadoop框架有利于我们方便、快速地搭建计算机集群。
本课题针对大数据时代对数据的存储和分析实际需求,介绍三种大数据处理和分析的方法,并着重讲述基于Hadoop的大数据设计架构,从而优化传统数据存储处理方法,实现应对海量数据级别的任务,为以后的数据挖掘打好基础,具有现实意义。
1.2 国内外研究现状