Part III · 汇成一朵云 · 第 9 章
09

规模化存储

云存储的目标不是把一块硬盘变大,而是把很多会坏的硬盘组织成一个看起来无限、可靠、按需付费的接口。

难度 云核心 用时 约 55 分钟 交互 写入复制流程 · 副本/一致性取舍 路线 螺旋式:先抓大图,再深入机制

0先把地图摊开

云存储的目标不是把一块硬盘变大,而是把很多会坏的硬盘组织成一个看起来无限、可靠、按需付费的接口。 本章不会把概念排成术语表,而是沿着一条真实系统路径走:先看它解决什么痛点,再看 OS/云平台怎样实现,最后回到工程取舍。

块存储像远程硬盘,给 VM 挂载,适合文件系统和数据库。
对象存储通过 key 读写对象,天然适合海量、低成本、跨地域数据。
复制把数据放多份,用空间换可靠性和可用性。
Quorum读写等待多数副本确认,在一致性和可用性之间折中。
规模化存储 · 核心流程 分步动画 点击节点或用键盘 ← →
图 9.1核心机制路径。把这一章最容易散掉的流程压成可播放的五步。

9.1三种存储接口对应三种心智模型

块存储像硬盘,文件存储像共享目录,对象存储像巨大的 key-value 桶。不要用“哪个更高级”理解它们;要问访问模式、语义和成本。

9.2可靠性来自复制,不来自祈祷

单盘会坏,单机房会断电。云存储通过多副本、纠删码、跨可用区复制把硬件故障转化成后台修复事件。

9.3一致性是接口承诺

写完立刻读能否读到?覆盖写怎么排序?列表结果是否马上更新?这些都不是实现细节,而是应用能否正确运行的契约。

9.4对象存储为什么统治云

对象存储放弃 POSIX 文件系统的一些细粒度语义,换来近乎无限扩展、低成本、多区域复制和简单 HTTP 接口。训练数据、日志、备份、静态资源都爱它。

9.5数据库和云存储的边界

数据库需要事务、索引、查询和强语义;对象存储提供持久字节和元数据。现代系统常把冷数据放对象存储,把热路径交给数据库或缓存。

规模化存储 · 取舍实验 可玩模拟器 切换策略,看指标怎么变
图 9.2工程取舍。云和 OS 的概念真正进入工程时,几乎都不是“选最好”,而是在约束之间找一个诚实的点。

云与 OS 的桥

这一章不是孤立知识点。下面这张表把它和前后章节接起来:你会看到,同一个机制在单机、云平台和 AI 基建里会换名字,但问题结构没变。

本章机制云上形态为什么重要
块存储云盘、数据库持久卷低延迟随机读写,常挂给 VM 或 StatefulSet。
对象存储训练数据湖、日志、备份牺牲部分文件语义换海量扩展和低成本。
复制/Quorum数据库副本、消息队列一致性协议会在第 10 章正式登场。
深潜 读完本章后,怎么确认自己真的懂了?

不要只背定义。你应该能把一个线上现象翻译回机制:慢在哪里、谁在排队、哪个抽象漏了、哪个资源被过度承诺。下面三个检查点可以当成小作业。

本章收束 · 你现在握住了什么

  • 块、文件、对象是不同接口语义,不是简单层级。
  • 云存储靠复制和故障域隔离对抗硬件失败。
  • 一致性是应用可依赖的接口承诺。
  • 对象存储通过简化语义获得巨大规模和低成本。

多副本带来新问题:如果副本意见不一致,谁说了算?下一章进入分布式系统的残酷核心。