基于Hadoop的工业大数据分布式存储系统的设计与实现任务书
2020-02-18 15:30:19
1. 毕业设计(论文)主要内容:
工业生产过程中无时无刻不再产生着数据,如何将这些数据收集起来,进行可靠的存储和有效的管理当前急于解决的问题。Hadoop技术的出现使得很好地解决这些问题成为可能,在商业领域,解决海量数据存储和管理的技术逐渐成熟,但在工业领域,仍然处于探索阶段。本题目旨在利用Hadoop作为分布式存储框架,通过该框架将多台机器组成集群,利用整个集群的存储空间实现一个分布式数据存储和管理系统,并通过设计合理的分布式文件和HBase数据库表的结构实现结构化、半/非结构化数据的可靠存储和有效管理。
2. 毕业设计(论文)主要任务及要求
(1) 查阅相关资料,阅读不少于15篇参考文献(其中近5年外文文献不少于3篇),研究分布式存储和管理的相关理论知识,为设计并实现一个分布式存储和管理系统提供有力的基础支撑。
(2) 对分布式计算框架mapreduce和分布式文件系统hdfs进行研究。
(3) 设计并实现分布式存储系统。搭建 linux 集群,通过部署安装 hadoop相关组件以及编程实现一个面向工业大数据的分布式存储和管理系统。
3. 毕业设计(论文)完成任务的计划与安排
第1周—第3周 搜集资料,撰写开题报告;
第4周—第5周 论文开题;
第6周—第12周 撰写论文初稿;
4. 主要参考文献
[1] 万轶,向广利.基于hadoop 和 hbase 的分布式索引集群研究[j],信息技术与信息化,2015(01):102-103
[2] alexander thomasian,yujietang. performance, reliability, and performability of a hybrid raid array and acomparison with traditional raid1 arrays[j]. cluster computing,2012,15(3).
[3] blomer j. a survey on distributed file system technology[j]. journal of physics: conference series,2015,608(1).