基于Hadoop的大数据存储策略研究开题报告
2020-02-18 18:25:37
1. 研究目的与意义(文献综述)
随着网络与信息技术的深入发展与广泛普及应用,各个行业都在以不可思议的速度迅猛地产生海量数据。通过微信、qq 等聊天产生交流数据,利用微博、贴吧等发帖与留言产生点评数据,网络购物、快递包裹等产生交易数据,视频内容产生观影数据,手机、座机等通话产生通话数据,移动终端与互联网的普及更是加快了数据的产生[1]。由业界分析调研机构 idc 发布的研究报告指出:在今后的10年里, 全世界的信息量将从2009年的0.8zb增长到2020 年的35zb,10年将增长44 倍,年均增长40% [2]。由于各行业应用所产生的数据呈 爆炸性增长,我们步入了大数据(big data)时代。
海量数据的产生已不再适合用传统的方法对数据进行存储, 与此同时数据处理手段也是复杂多样,再加上数据结构不像传统数据那样统一,那么我们应该怎么合理地存储海量数据呢?针对这个问题,分布式存储系统应运而生。由于数据量极大,原来由单一媒体存储的数据,可以通过技术构建分布式存储系统,将大量数据分别存储在不同的存储节点里,不仅可以实现海量数据的存取,而且易于实现系统扩展。对于数据结构不同的问题,可以通过设置多种存储引擎,为每种数据结构提供合适的存储方案,来代替以前的结构化为主体的存储方式。
分布式存储系统,是将数据分散存储在多台独立的存储设备上。传统的存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式存储系统采用可扩展的系统结构,利用分布在不同地理位置的多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
2. 研究的基本内容与方案
本课题拟基于hadoop分布式文件系统为大数据设计高效的存储方案,并对所设计方案的性能,例如安全性、可靠性、存储开销、读写开销等,进行多维度的软件仿真测试和理论分析。
据此本研究拟采用的技术方案及措施如下:
(1)安装hadoop:虽然linux系统是最适合进行hadoop相关操作的,但是考虑到电脑本身性能问题,故并未采用虚拟机安装linux系统,而是选择在windows下安装和配置hadoop。
3. 研究计划与安排
(1)第1-3周:查阅相关文献资料,明确研究内容,了解研究所需的理论知识。确定方案,完成开题报告。
(2)第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉相关工具软件的使用;
(3)第6-9周:实现系统各功能模块设计。
4. 参考文献(12篇以上)
[1]陆平, 李明栋, 罗圣美等. 云计算中的大数据技术与应用[m]. 科学出版社, 2013.
[2]李爽. 基于 spark 的数据处理分析系统的设计与实现[d]. 北京交通大学, 2015.
[3]安俊秀,王鹏,靳宇倡. hadoop大数据处理技术基础与实践[m]. 人民邮电出版社,2015.