Ceph文件系统IO瓶颈分析与优化开题报告
2020-02-20 10:24:33
1. 研究目的与意义(文献综述)
近年来,网络应用的快速普及和云存储的推广,网络数据海量的增长态势越发明显。信息资源的爆炸性增长,对存储系统的容量、可扩展性、数据可用性以及 i/o 性能等方面提出了越来越高的要求。虽然计算,传输和存储三大 it 基础设施都得到了飞速的发展,但相当于计算 (数据处理) 和传输而言,存储技术相对发展缓慢,这主要是由于在 i/o 子系统方面缺乏相应的提高,导致 i/o 成为了存储系统的主要瓶颈[1] 。
传统的集中式存储,如san或nas,由于受到成本或可扩展性的限制,已经不能满足如今zb数量级的存储需求,因此出现了各种分布式存储系统[2]。分布式系统的理论出现于上个世纪70年代,但是最近十来年分布式系统才被广泛应用。传统的分布式存储系统由高端处理器和存储设备构成,而现阶段互联网公司的存储系统,则由大量性价比高的普通pc服务器通过网络连接而成。分布式文件系统作为分布式系统的存储子系统,能够有效解决海量数据存储的i/o瓶颈问题,成为了目前业界研究的热点[3]。
ceph分布式文件系统是一个新兴的文件系统,它的原型是一项关于存储系统的phd项目。ceph集群由客户端(client)、元数据服务器集群(mds)[4]、对象存储集群(osd)和集群监视器(cluster monitor)组成。ceph充分利用到了存储设备自身的计算能力,通过crush[5]算法计算得出数据对象的存储位置,从而消除系统对单一中心节点的依赖,实现了真正的无中心结构。其副本强一致性[5]策略保证了数据对象在ceph存储集群中的有效性,出错节点的自动故障恢复机制保证了存储集群的可靠性,去中心化的设计结构使其可扩展性得到了保证。正是其高有效性、高可靠性、高可扩展性使得ceph分布式存储集群从各个开源的分布式存储系统中脱颖而出,逐渐获得更多人的关注以及更深入的研究[7]。
2. 研究的基本内容与方案
一、研究目标
搭建ceph分布式文件系统环境,测试不同ib协议和nvmeof驱动方式下的系统最优配置,测试分析分布式文件系统ceph端到端io路径的各处理环节开销,分析在特定硬件条件下的瓶颈环节,调研针对该硬件场景下的面向ceph系统的性能优化方案,实现并验证1-2种优化方案。
二、研究内容
3. 研究计划与安排
1月20日-1月31日
查阅参考文献,明确选题;
2月1日-2月25日
4. 参考文献(12篇以上)
[1]赵铁柱, 袁华强. 分布式文件系统性能研究[j]. 东莞理工学院学报, 2014(1):20-24.
[2]贺昱洁. 负载均衡的大数据分布存储方法研究与实现[d].2015
[3]李翔. ceph分布式文件系统的研究及性能测试[d]. 西安电子科技大学. 2014.