基于Hadoop的大数据存储策略研究开题报告

2020-02-18 18:25:37

1. 研究目的与意义（文献综述）

随着网络与信息技术的深入发展与广泛普及应用，各个行业都在以不可思议的速度迅猛地产生海量数据。通过微信、qq 等聊天产生交流数据，利用微博、贴吧等发帖与留言产生点评数据，网络购物、快递包裹等产生交易数据，视频内容产生观影数据，手机、座机等通话产生通话数据，移动终端与互联网的普及更是加快了数据的产生^[1]。由业界分析调研机构 idc 发布的研究报告指出：在今后的10年里，全世界的信息量将从2009年的0.8zb增长到2020 年的35zb，10年将增长44 倍，年均增长40% ^[2]。由于各行业应用所产生的数据呈爆炸性增长，我们步入了大数据（big data）时代。

海量数据的产生已不再适合用传统的方法对数据进行存储, 与此同时数据处理手段也是复杂多样，再加上数据结构不像传统数据那样统一，那么我们应该怎么合理地存储海量数据呢？针对这个问题，分布式存储系统应运而生。由于数据量极大，原来由单一媒体存储的数据，可以通过技术构建分布式存储系统，将大量数据分别存储在不同的存储节点里，不仅可以实现海量数据的存取，而且易于实现系统扩展。对于数据结构不同的问题，可以通过设置多种存储引擎，为每种数据结构提供合适的存储方案，来代替以前的结构化为主体的存储方式。

分布式存储系统，是将数据分散存储在多台独立的存储设备上。传统的存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式存储系统采用可扩展的系统结构，利用分布在不同地理位置的多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

本课题拟基于hadoop分布式文件系统为大数据设计高效的存储方案，并对所设计方案的性能，例如安全性、可靠性、存储开销、读写开销等，进行多维度的软件仿真测试和理论分析。

据此本研究拟采用的技术方案及措施如下：

（1）安装hadoop：虽然linux系统是最适合进行hadoop相关操作的，但是考虑到电脑本身性能问题，故并未采用虚拟机安装linux系统，而是选择在windows下安装和配置hadoop。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

（1）第1－3周：查阅相关文献资料，明确研究内容，了解研究所需的理论知识。确定方案，完成开题报告。

（2）第4－5周：熟悉掌握基本理论，完成英文资料的翻译，熟悉相关工具软件的使用；

（3）第6－9周：实现系统各功能模块设计。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]陆平, 李明栋, 罗圣美等. 云计算中的大数据技术与应用[m]. 科学出版社, 2013.

[2]李爽. 基于 spark 的数据处理分析系统的设计与实现[d]. 北京交通大学, 2015.

[3]安俊秀，王鹏，靳宇倡. hadoop大数据处理技术基础与实践[m]. 人民邮电出版社，2015.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码