Ceph文件系统IO瓶颈分析与优化文献综述
2020-04-15 17:09:37
近年来,网络应用的快速普及和云存储的推广,网络数据海量的增长态势越发明显。信息资源的爆炸性增长,对存储系统的容量、可扩展性、数据可用性以及 I/O 性能等方面提出了越来越高的要求。虽然计算,传输和存储三大 IT 基础设施都得到了飞速的发展,但相当于计算 (数据处理) 和传输而言,存储技术相对发展缓慢,这主要是由于在 I/O 子系统方面缺乏相应的提高,导致 I/O 成为了存储系统的主要瓶颈[1] 。
传统的集中式存储,如SAN或NAS,由于受到成本或可扩展性的限制,已经不能满足如今ZB数量级的存储需求,因此出现了各种分布式存储系统[2]。分布式系统的理论出现于上个世纪70年代,但是最近十来年分布式系统才被广泛应用。传统的分布式存储系统由高端处理器和存储设备构成,而现阶段互联网公司的存储系统,则由大量性价比高的普通PC服务器通过网络连接而成。分布式文件系统作为分布式系统的存储子系统,能够有效解决海量数据存储的I/O瓶颈问题,成为了目前业界研究的热点[3]。
Ceph分布式文件系统是一个新兴的文件系统,它的原型是一项关于存储系统的PhD项目。Ceph集群由客户端(Client)、元数据服务器集群(MDS)[4]、对象存储集群(OSD)和集群监视器(Cluster Monitor)组成。Ceph充分利用到了存储设备自身的计算能力,通过CRUSH[5]算法计算得出数据对象的存储位置,从而消除系统对单一中心节点的依赖,实现了真正的无中心结构。其副本强一致性[5]策略保证了数据对象在Ceph存储集群中的有效性,出错节点的自动故障恢复机制保证了存储集群的可靠性,去中心化的设计结构使其可扩展性得到了保证。正是其高有效性、高可靠性、高可扩展性使得Ceph分布式存储集群从各个开源的分布式存储系统中脱颖而出,逐渐获得更多人的关注以及更深入的研究[7]。
本次研究的目的是在搭建ceph分布式文件系统环境的基础上,测试不同IB协议[8]和Nvmeof驱动方式下的系统最优配置,测试分析分布式文件系统Ceph端到端IO路径的各处理环节开销,分析在特定硬件条件下的瓶颈环节,调研针对该硬件场景下的面向Ceph系统的性能优化方案,实现并验证1-2种优化方案[9]。
{title}2. 研究的基本内容与方案
{title}一、研究目标
搭建ceph分布式文件系统环境,测试不同IB协议和Nvmeof驱动方式下的系统最优配置,测试分析分布式文件系统Ceph端到端IO路径的各处理环节开销,分析在特定硬件条件下的瓶颈环节,调研针对该硬件场景下的面向Ceph系统的性能优化方案,实现并验证1-2种优化方案。
二、研究内容
1、Ceph文件系统的研究
本次设计中要搭建Ceph文件系统,因此需了解Ceph文件系统的基本架构,并深入学习Ceph文件系统。
2、IB协议和Nvmeof驱动方式的研究