登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 计算机科学与技术 > 正文

共享存储与CephFS和Rados网关的集成实现大数据访问外文翻译资料

 2021-12-29 22:57:03  

共享存储与CephFS和Rados网关的集成

实现大数据访问

摘要

近年来,高可用性共享存储将成为热门的信息技术产业发展方向。当前,信息技术行业强调降低高风险数据需求,提高数据存储的读写性能。因此,这项工作的主要目的是通过Ceph 存储集群的最佳方式提高读写性能。该系统将数据存储在 Hadoop 分布式文件系统 (HDFS) 上,并自动将数据存储在 Alluxio 虚拟分布式存储系统中。然后,通过 Hadoop Map Reduce 方法对数据进行处理,并将输出结果插入到 Hadoop 分布式文件系统和 Alluxio 环境中。实验一是使用 S3 作为应用程序接口,将 RADOS 网关存储数据连接到对象存储守护程序 (OSD)。实验二在实验一的基础上,将通过 Ceph 文件系统 (CephFS) 直接连接到对象存储守护进程。数据存储在 Ceph 环境下比 Alluxio 更安全,因为 OSD 可以根据对象存储级别进行数据备份。我们可以使用 S3 浏览器 (GUI) 来维护数据,如授权访问、维护文件夹维护、创建用户帐户、移动数据位置等。如果有任何问题,系统会自动向用户发出警告或错误响应。

关键词 -- 大数据、共享存储、 Ceph 存储系统。

第一章 介绍

近年来,持续交付的重要性将继续消除开发和需求、可用性和可扩展性。该工具必须高度可用,以便工程师可以提供新的软件。许多公司需要自动扩展共享存储系统,即使组件服务失败,其服务仍然可用。数据可以存储在数据库和文件系统或任何其他内容中,但最终将存储在 SSD 或硬盘等存储设备中。它要求高可用性共享存储,降低设备中断、文件系统损坏的风险,并且连接到设备的系统可能会被中断。为了避免中断,它希望拥有多个实例的所有组件。如果发生错误,其他组件可能会引用自动接管并复制和分发所有数据。如果发生任何中断,用户不必担心。

正如大数据 [1],[2] 已经变得如此广泛,全球的行业已经投入了大量的资金和研究。他们希望利用竞价数据技术来分析那些非常大、容易处理的数据。利用数据挖掘等大数据技术获取有价值的信息,可以缓解当前面临的数据扩展问题。该工具必须高度可用,以便工程师可以提供新的软件。很多公司需要自动扩展共享存储系统来解决这个问题。因此,我们提出了一个高可用性、开源、可扩展、软件定义的监控存储系统。Ceph 是一个开源的,可扩展的,软件定义的存储系统,可以在商品硬件上运行。Ceph 从一开始就在自我管理和自我管理中发展起来。在单个软件平台上没有单点故障的 f-healing 可提供对象、块和文件系统存储。由于其高度可扩展的软件定义存储架构,传统存储系统 Ceph 也是理想的替代云计算环境对象和块存储的强大存储解决方案。

  1. 背景回顾

2.1Ceph存储

云计算 Ceph [9] [10] [11] 是一个运行在商品硬件上面的,可扩展的,开源,软件定义的存储系统。它旨在为性能、可靠性和规模提供分散的对象存储和归档系统。Ceph [12] [13]让Apache Hive从头开发,将对象,块和文件系统存储在一个自我管理,自我修复,没有单点故障的软件平台中。Ceph [9] 、 [12] 、 [14] 是由热情的存储工程师和研究人员组成的全球社区所实现的。Ceph 软件运行在商品硬件上。该系统设计用于自我修复和自我管理,并努力降低管理员和预算成本。图 1 显示了 Ceph [15] 的架构。

图2-1 Ceph通用架构

Ceph [16] 、 [17] 由 RADOS 网关、块设备和 CephFS 三个组件服务组成。

  • RADOS 网关是一个基于 bucket –based 的 REST 网关,与 S3 和 Swift 兼容。
  • RBD 是一款可靠且完全分布式的块设备,具有 linux内核客户端和 QEMU/KVM 驱动程序。
  • CephFS 是一个 POSIX 兼容的分布式文件系统,具有一个 linux内核客户端,支持 FUSE。

2.2Alluxio

Alluxio (前称为Tachyon) 是一个开源虚拟机分配内存速度存储系统。它统一了数据访问和网桥计算框架和底层存储系统。应用程序只需要连接 alluxio 就可以访问数据存储系统底层的存储。此外,Alluxio 以内存为中心的体系结构允许数据访问速度比现有的常规解决方案快好几倍。图 2 是 Alluxio 架构。

图2-2 Alluxio架构

2.3Apache Hadoop

Apache Hadoop [18],[19]现在是最流行的大数据处理解决方案之一,即apache软件基础开源框架。Hadoop实现是根据已发布的Google MapReduce和Google File System文件构建的。Hadoop框架透明地为应用程序提供可靠性和数据。Apache Hadoop [20]框架工作基于Hadoop分布式文件系统(HDFS)构建,支持稳定的自动分布式处理系统。HDFS 将分布式存储资源集成到容错、高效、大容量的存储环境中。Hadoop 实现了 map reduce 编程框架,由 map 组成,减少了输入的大小,使集群与实现数据块中的任何节点一样。Hadoop 从单一的服务器规模到千台机器,提供并行计算,增加了计算的数量。

  1. 系统架构

本节介绍了分散存储系统的系统架构和实现。我们将数据存储在 Hadoop 分布式文件系统 (HDFS) 中,并使用 Alluxio 作为桥梁来复制到 Alluxio 内存空间。结果通过 Map Reduce 处理,输出存储在 Alluxio 内存空间中。

3.1系统架构

实验一,系统使用 word 数据加载映射来减少环境。数据可根据用户要求进行调整。这里我们设置了三个示例数据大小: 5 GB 、 10 GB 和 15 GB。通过映射,按键排序 [key,merge,[value-1,value-2, 使用 value-and] 算法将数据发送到存储速度 Alluxio 虚拟存储系统。我们通过 S3 和 RADOS 激活 Alluxio 网关文件配置 API (S3 Ceph 组件,数据也存储在对象存储守护程序 (OSD) 中。实验二,,系统和第一个系统的数据量与系统中的数据量相同,并且数据不通过 S3 API 和 RADOS 网关将数据存储到对象存储守护程序 (OSD) 中, OSD 可直接连接到插入的 Alluxio。实验二减少了 S3 API 和ADOS 网关级别。通过监测系统监测这些环境影响范围。这些环境已由 Inkscope 监控系统监控。所有 Ceph 中的 Inkscope 监控系统,如果有过期,Inkscope 将显示用户的警报。图 3 显示了集成架构。

图3-1实验架构

3.2软件规范

在此工作中,我们建立了 Apache Hadoop 、 Alluxio 、 Ceph 、 Inkscope 和 GlusterFS。表3-1显示了所使用软件的规格。

表3-1 软件规格

NO.

软件

版本

1

Apache Hadoop

2.7.3

2

Alluxio

1.4

3

Ceph

10.20 (jewel)

4

Inkscope

1.1

5

Mongo DB

3.2

6

GlusterFS

3.6.9

3.3系统实现

3.3.1Ceph 存储服务部署

Ceph 是一个免费的软件存储平台,实现分布式对象存储和文件系统,为对象、块和文件级存储提供接口。它具有卓越的性能、可靠性和可扩展性。为了实现上述功能,Ceph 有三种物理节点: 对象存储守护进程 (OSD) 、监视器 (MON) 和元数据 (MDS) 服务。根据对象存储部署要求。我们只需要安装 OSDs 和 MONs。

3.3.2HDFS 部署

Hadoop 有两种节点: 主节点和从节点。主节点使用 NameNode 服务来控制在从节点上运行的 DataNode 服务。我们构建了一个由一个主节点和两个从节点组成的 HDFS 架构,如图3-2 和图 3-3 所示,NameNode 执行文件系统命名空间操作,并确定块 datanode 的映射。Datanode 负责服务文件系统客户端的读写请求。在安装 Hadoop 和 HDFS 之后,我们必须在 Hadoop 环境中设置 S3 API,并在 core-site.xml 中添加代码。

图3-2 HDFS 环境 图3-3 Hadoop jps

3.3.3Alluxio 部署

Alluxio 数据存储与计算分离,可以独立扩展两部分引擎。计算引擎 (Hadoop) 可以访问来自不同数据源的数据 (Amazon S3)。我们在 Hadoop 节点部署 Alluxio,然后通过 Alluxio 作为桥梁访问 S3 API 和 Rados 网关。如图 3-4和图 3-5所示。

图3-4 Alluxio 环境 图3-5 Alluxio 实例

3.3.4 Rados 网关部署

也称为 Ceph 对象存储。提供 RESTful API 接口,兼容 Amazon S3 云存储服务,以及 OpenStack 对象存储 Swift。通过 Rados 网关访问 Ceph 存储集群,主要通过 LIBRGW 这个库,可以达到直接访问的效果。如图 3-6 和图 3-7 所示。

图3-6 RADOS 网关环境

图 3-7 RADOS 网关实例

3.3.5 Ceph 文件系统部署

Ceph 文件系统 (CephFS) 提供 POSIX 兼容文件系统,供用户以两种方式装入文件或文件夹: 访问 CephFS 的核心对象, 或者文件系统下的用户空间 (用户空间中的文件系统) 并使用。首先,我们建立 CephFS 。第二,我们通过 Alluxio 文件系统挂载 CephFS。如图 3-8所示,我们将向 CephFS 中添加 1.5G 文件,然后观察 CephFS 空间的变化。

图 3-8 Ceph 文件系统实例

3.3.6用户服务

<p

全文共24617字,剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[2977]

您需要先支付 20元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图