当前位置:网站首页>云存储硬核技术内幕——(10)
云存储硬核技术内幕——(10)
2022-08-04 15:38:00 【用户8289326】
在前几期,我们提到了,在云计算时代,由于对存储IO及吞吐的要求迅速增加,传统SAN存储难以满足需求,基于标准x86节点的分布式存储成为了主流。
开源分布式存储的代表是Ceph。Ceph本质上是对象存储(后面会讲到),以image的形式提供RBD块,在KVM的QEMU中安装RBD块驱动,将RBD块直接挂载给虚拟机。RBD驱动会将块拆分为2MB/1MB大小的Object,每个Object拆分为几百到上千个PG,每个PG映射到N个物理磁盘上。
好了,这里的N就是今天讨论的问题——Ceph的高可用性设计。
我们知道,磁盘本身是一个损耗品,也是有固定使用寿命的,甚至可能被意外拔出。 服务器:硬盘怎么突然不在线了?
出于这点考虑,工程师们在服务器上安装了两块硬盘,通过RAID卡,让来自系统的IO被复制到两块硬盘,令两块硬盘存储的内容完全一致。当一块硬盘损坏或被意外拔出时,另一块硬盘还能够读出完整的数据。这种冗余技术叫做RAID-0。
但是,RAID-0有一个致命缺陷:在用新的硬盘替换掉损坏的硬盘的时候,需要将好的那块硬盘内容完全复制一份到新的硬盘,这个过程叫重构,将持续几个小时。在重构过程中,整个系统的IO读写性能会急剧下降(磁盘忙于读取内容向新硬盘复制)。
因此,工程师们发明了RAID-5和RAID-6。RAID-5和RAID-6的实现方式是,对一整块数据,切分成M块,根据这些数据计算出N块冗余校验数据。对于RAID-5,N=1,对于RAID-6,N=2。这样一来,任意一块磁盘损坏,由于有多块磁盘分担重构的读操作(想一想,为什么),对整个系统IO的影响相对有限。
然而,我们也知道,RAID-5和RAID-6的写操作对IO能力的损耗,由于写惩罚的存在,会成倍消耗磁盘的IO能力。因此,在分布式存储中,通常使用多副本机制,最常见的是三副本:
如图,PG落到主OSD后,主OSD所在的Node会将内容复制到另外两个副本对应的OSD节点,并最终落盘。这样,对于大量并发IO的写场景,总体的写性能为:单盘IO能力 * OSD数量 / 3,而总体的读性能为单盘IO能力 * OSD数量。
假设Ceph集群由6台服务器构成,其中每台有12块SATA机械盘,单盘IO能力为150 IOPS,那么,我们可以计算出,整个集群有72个OSD,总体IO能力为
150 * 72 / 3 = 3600 IOPS。
显然,这个性能是很难满足一般应用的需求的。
我们想到,使用SSD固态盘可以大规模提升IO能力。以常见的NVMe盘为例:
这个家伙的随机读可达150K IOPS,随机写可达80K IOPS。
如果6台服务器上,每台安装4块这样的NVMe盘,总的读IO能力可达3.6M IOPS,写能力可达640K IOPS。以70%读,30%写计算,IO能力约为1.5M IOPS。
这是一个很不错的性能。
但是,我们也注意到,NVMe或SATA SSD的价格不菲。
有没有什么办法,用少量昂贵的固态盘搭配大容量机械盘,取得较好的性能呢?
请看下期分解。
边栏推荐
- Jupyter常用操作总结(强烈建议收藏,持续更新实用操作)
- The electromagnetic compatibility EMC protection study notes
- ##ansible自动化运维架构与简介
- Beginner crawler notes (collecting data)
- DocuWare平台——用于文档管理的内容服务和工作流自动化的平台(上)
- 《电磁兼容防护EMC》学习笔记
- 为什么Redis默认序列化器处理之后的key会带有乱码?
- 【Harmony OS】【FAQ】Hongmeng Questions Collection 2
- 吴恩达机器学习[11]-机器学习性能评估、机器学习诊断
- 【Harmony OS】【FAQ】鸿蒙问题合集2
猜你喜欢

HarePoint Analytics for SharePoint Online

Redis 高可用

重构指标之如何监控代码圈复杂度

普法教育结合VR全景,直观感受和学习法治精神

我说MySQL联合索引遵循最左前缀匹配原则,面试官让我回去等通知

Byte、Short、Integer、Long内部缓存类的对比与源码分析

In action: 10 ways to implement delayed tasks, with code!

不需要服务器,教你仅用30行代码搞定实时健康码识别
![吴恩达机器学习[13]-支持向量机](/img/8c/87f1dd825bb998008d1532ff2899e2.png)
吴恩达机器学习[13]-支持向量机

Many merchants mall system function and dismantling 24 - ping the strength distribution of members
随机推荐
GPS satellite synchronization clock, NTP network synchronization clock, Beidou clock server (Jingzhun)
弄懂#if #ifdef #if defined
解决dataset.mnist无法加载进去的情况
一文详解什么是软件部署
直播回放含 PPT 下载|基于 Flink & DeepRec 构建 Online Deep Learning
C端折戟,转战B端,联想的元宇宙梦能成吗?
小程序|炎炎夏日、清爽一夏、头像大换装
AAAI‘22 推荐系统论文梳理
Codeforces Round #811 A~F
不需要服务器,教你仅用30行代码搞定实时健康码识别
Http-Sumggling缓存漏洞分析
"Research Report on the Development of Global Unicorn Enterprises in the First Half of 2022" released - DEMO WORLD World Innovation Summit ended successfully
《2022 年上半年全球独角兽企业发展研究报告》发布——DEMO WORLD世界创新峰会圆满落幕
西安纵横资讯×JNPF:适配中国企业特色,全面集成费用管控体系
H5 开发内嵌页面跨域问题
Redis持久化操作
附加:自定义注解(参数校验注解);(写的不好,别看…)
Li Mu's deep learning notes are here!
Xi'an Zongheng Information × JNPF: Adapt to the characteristics of Chinese enterprises, fully integrate the cost management and control system
云存储硬核技术内幕——(13) 抓手,组合拳与闭环