登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于HBase的异构数据存储系统设计与实现毕业论文

 2021-08-24 22:55:54  

摘 要

本文在对现有基于HBase存储大对象数据解决方案分析的基础上,提出根据不同容量大小的数据分区隔离存储的HBase和HDFS综合存储方案。本文在设计存储管理多源异构数据的系统时,尽量沿用HBase自身的机制实现对异构数据的存储,减少操作数据时客户端以及服务器端的负担,采取直接将大容量数据隔离存储在HDFS上的方式避免HBase本身的Split和Minor Compaction的机制带来的高延时和写阻塞等影响,在对隔离存储的大容量数据进行维护管理的设计上,本系统采用将小容量数据与大容量数据分别存储在不同的ColumnFamily,并且将写入HDFS的文件路径写回HBase表中的方式,实现了系统管理一致性需求和对用户完全透明。整个系统的性能测试相比于未优化的HBase自身存储机制表现出更高性能。

关键词:HBase;异构数据;隔离存储;高性能

Abstract

Based on the analysis of the existed large object data solution, this paper puts forward the integrated storage scheme of HBase and HDFS based on the partition of the data of different capacity. In this paper, the design of multi-source heterogeneous data storage management is as far as possible to use the mechanism of HBase itself to realize heterogeneous data storage so as to reduce the client’s and server’s load when operating data. Directly to storage the large capacity data on HDFS avoids the influence of HBase Split and Minor Compaction mechanism causing high delay and write blocking. In the design of managing the large capacity data of isolated storage, the system stores the small capacity data and large capacity data in different ColumnFamily, and the HDFS file path of large capacity data will be writen back to the HBase table in the way to realize the system management of user needs and consistency completely transparent. The performance test of the whole system shows higher performance compared to the non optimized HBase self storage mechanism.

Key Words:HBase;Heterogeneous data;Isolated storage;High performance

目 录

第1章 绪论 1

1.1 研究的目的及意义 1

1.2 国内外研究现状 2

1.3 论文内容安排 4

1.4 本章小结 5

第2章 系统设计的相关原理 6

2.1 异构数据 6

2.2 分布式文件系统HDFS 6

2.2.1 HDFS架构 6

2.2.2 HDFS读写文件系统分析 7

2.3 HBase数据库 8

2.3.1 HBase 8

2.3.2 HBase数据模型 8

2.3.3 HBase的Split和Compaction机制 10

2.3.4 HBase读写数据工作机制 11

2.4 本章小结 11

第3章 基于HBase存储异构数据系统的设计与实现 12

3.1 系统解决方案的设计与分析 12

3.1.1 需求分析 12

3.1.2 设计目标 12

3.1.3 总体设计 13

3.1.4 本文设计优势 17

3.2 HBase集群及开发环境搭建 17

3.2.1 环境配置前期准备 18

3.2.2 Hadoop集群平台配置 19

3.2.3 HBase安装与配置 21

3.3 基于HBase异构数据存储的实现 23

3.3.1 结构化数据存储实现 23

3.3.2 半结构化以及非结构化数据的存储与实现 24

3.4 性能测试与结果分析 26

3.5 本章小结 27

第4章 总结和展望 28

4.1 本文工作总结 28

4.2 进一步工作展望 28

参考文献 29

致谢 30

第1章 绪论

1.1 研究的目的及意义

伴随着计算机网络的发展,海量数据成为互联网时代的产物之一,数据的产出面很广,我们所能感知到的,手机和PC等智能终端已成为我们每个人必不可少的物件,对其的使用最直观的就是促成了网络访问日志以及通信记录的膨胀;视频能给人最直接的感观,所以视频产业的发展让视频数据应用于我们生活的每一个角落,例如视频通讯、医疗影像、监控录像等,这些视频数据的规模和大小也不容小觑。如何高效存储这些在我们日常生活中就能感知到的海量数据成为技术人员研究的热点,这些数据包含结构化数据、XML文档等半结构化数据以及图片、文本、视频等非结构化数据等多结构类型,表现出很大的多源异构的特点,所以怎样有效的处理这些多源异构的数据一直是个热门的话题[1]

这些持续不断增加的异构数据中多半属于非结构化数据,而且有的数据需要长时间存储,非热点数据的访问完全是随机的,所以这日益庞大的数据集规模将会急切需要一个稳定的高性能系统进行存储管理,实现对数据集的低延时读写与快速计算处理,首先可以确定的是传统技术如关系型数据库无法胜任对如此大规模多源异构数据集进行分析、管理和挖掘等工作,现阶段成熟的数据库工具已经能很好的处理GB级别的结构化数据,但对大数据集的分析依然无法有效完成。从海量数据的产生,到存储管理需求的预判,如何最快最好的分析和理解这些异构数据成为大家研究的中心。从目前已研究成果和应用来看,Hadoop文件存储计算框架以及构架于其上的相关组件成为了海量多源异构数据处理的核心技术,例如和传统的关系型数据库相比,列式存储的HBase分布式集群系统对于半结构化和非结构化数据的处理表现出很高的性价比,而且其也能完成和传统关系型数据库的对接,实现对结构化数据的存储[2]

但现有基于HBase的大对象存储方案也存在着不少缺点,第一种是直接利用HBase自身的大对象存储方案,在存储非结构化大容量数据时将无法避免其自身的Split和Compaction机制,写性能较差,存在着不稳定的延时;第二种方案是基于HDFS的HBase大对象存储方案,目前已有的研究都存在大数据管理困难的问题 ;第三种方案是基于列族(ColumnFamily,CF)定制的HBase自身存储方案,并未解决Split带来的影响,并且大量大容量文件的StoreFiles会影响读性能[3]

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图