基于HDFS分布式存储的云盘系统的设计与实现开题报告
2020-02-18 19:26:32
1. 研究目的与意义(文献综述)
hadoop作为apache基金会资助的开源项目,由doug#8194;cutting带领的团队进行开发,基于lucene和nutch等开源项目,实现了google的gfs和hadoop能够稳定运行在20个节点的集群;2006年1月,doug#8194;cutting加入雅虎公司,同年2月apache#8194;hadoop项目正式支持hdfs和mapreduce的独立开发。同时,新兴公司cloudera为hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。
1.1#8194;海量数据时代的现状#8194; 我们生活在数据的时代,很难估计全球的数据有多少,“数字宇宙”项目统计得出,2006年的数据总量为0.18zb,也就是10亿tb。以往数据处理速度不够,以100mb每秒计算,读取1tb的数据需要2个半小时。一个比较好的方案就是把数据放在100个磁盘中每个磁盘中存放1%的数据并行读取,不到2min就能读取所有数据。经过统计用户的分析工作会在不同的时间点进行,所以用户相互间的干扰不会太大。但是一旦硬件发生故障,用户的数据就会丢失,所以要准备多份。mapreduce将这个问题抽象,转化为对一个数据集合的计算。这个计算模型分为map和reduce两个阶段,只有这两个部分对外提供接口。#8194;举例#8194;rackspace的一个部门mailtrust:mapreduce是一种比较蛮力的办法,每个查询几乎需要处理整个数据集,至少是数据集的很大一部分。在合理的时间内对整个数据集合的数据即时查询,是对数据的一种创新。rackspace的mailtrust部门,使用hadoop处理邮件日志,他们做用户地理分布查询。“这些数据非常有用,每个月运行一次决定哪些rackspace数据中心需要添加新的邮件服务器“。通过整合数百gb的数据,并分析,可以通过这些数据改善现有服务。
2. 研究的基本内容与方案
基本内容与目标:基于hdfs设计出分布式存储云盘从用户角度,整个系统划分为ecdisk客户端、ecdisk运营管理平台、hdfs分布式文件存储集群和账户数据应用平台四部分。
采用技术方案措施:hdfs服务接口:考虑到客户端开发环境为vc 2010,hdfs客户端api采用hadoop自身提供的thrift接口。用户数据库:用户数据库存储用户的账户信息,保留在mysql数据库中。内存数据库:为提高用户账户信息访问速度,所有当前在线用户(已登录)的账户数据都缓存到内存数据库中,内存数据库选用基于erlang实现的menisa。
3. 研究计划与安排
确定毕业设计方案,完成开题报告。
4. 参考文献(12篇以上)
[1]王永洲. 基于hdfs的存储技术的研究[d]. 江苏:南京邮电大学, 2013.
[2] 林穗, 黄健, 姜文超,等. 基于 hdfs 的安全云存储模型[j]. 广东工业大学学报, 2014(3):49-54.
[3] 马建红, 霍振奇. 基于 hdfs 的创新知识云平台存储架构的研究与设计[j]. 计算机应用与软件, 2016, 33 (3):62-66.
最新文档
- 性能优化的FRP护套用于钢筋混凝土框架的抗震改造外文翻译资料
- 圆形截面的FRP约束混凝土:审查和评估应力应变模型外文翻译资料
- FRP约束混凝土的轴向压缩行为:实验测试数据库和面向设计的新模型外文翻译资料
- 腐败与美国各州收入不平等之间的关系:来自专家小组的协整和误差修正模型的证据外文翻译资料
- 利用污泥和低质粉煤灰制备高强度陶粒外文翻译资料
- 表面活性剂改性疏水性Cu2O量子点作为高效钙钛矿太阳能电池顶部空穴传输材料外文翻译资料
- 内蒙古1962 – 2016年时间序列气候变量的变化特征外文翻译资料
- Nb 和 Ni 共掺杂 Mg(0001)氢解离扩散的理论研究:外文翻译资料
- 基于 Jetson Nano 深度学习平台的学生课堂学习评估系统—–学生的人脸检测与识别外文翻译资料
- UI 和 UE 设计技术及其在 HTML5 网站开发中的地位的研究外文翻译资料
- 皇后大道大桥——NEXT梁外文翻译资料
- 连续梁桥支座附近的波纹钢腹板抗剪性能评估外文翻译资料
- 在200至300℃的温度下纤维素的水热降解外文翻译资料
- 残差修正法在季节性ARIMA电力需求预测中的应用:以中国为例外文翻译资料
- 注蒸汽井中硅含量对水泥石抗压强度的影响外文翻译资料