用 vLLM 当锚点,
把 AI infra 学成你的母语。
这不是一份课程大纲,而是一本新一代教材: 遇到一个 vLLM 模块再回头补对应的 OS 概念, 每一步都带一个驱动问题、一段可读的代码、一组自检题、和一张让你理解结构的图。
01这套教程的写法
AI infra 的痛点是:知识树太大——OS、CUDA、分布式、编译器、Transformer 内部、网络。 全刷一遍要两年;只看上层 API 又会卡在第一个性能问题。
这份路径用四条原则压缩它:
① Just-in-time
不刷完整课。遇到 vLLM 某模块卡住 → 反查对应 OS 概念 → 学到能看懂 → 回到代码。每个概念都有"现在用得上"的上下文,记得住。
② 问题驱动
每一节先抛一个问题("vLLM 为什么不用 contiguous KV cache?"),让你先猜再读答案。强迫你形成预期,而不是被动接受信息。
③ 代码锚点
每个概念学完,立刻给一个文件路径:"去读 vllm/v1/core/block_pool.py 的 get_new_blocks(),带着这 3 个问题。"从抽象 → 真实代码的距离永远 ≤ 1 步。
④ 闭环输出
每月一个产出物:一个 PR、一段笔记、或一份 benchmark。不输出不算学会。月末复盘强制收口,避免知识漂浮。
02学习循环
每个 vLLM 模块都按这个循环走一遍,不跳步:
03谁适合读
- 已经会写代码的工程师 / 学生(任何语言都行,Python 优先),想从应用层往下走。
- 对 "LLM serving 怎么跑起来的" 有强烈好奇心。
- 愿意花 6 个月、每周 10–15 小时投入。少于这个强度,可以放缓节奏但流程不要砍。
- OS 基础:知道进程/线程是什么、虚拟地址不是物理地址、什么是 lock 即可。深入概念这里会补。
04完整目录
每章都有驱动问题、SVG 图解、代码锚点、自检题四件套。点进去看就明白。
vllm serve、配 pre-commit。故障排查矩阵覆盖 10+ 常见坑。目标是能复现。05这本教材跟别的资源有何不同
vs vLLM 官方文档
官方文档是"用户手册 + API 参考",假设你已经懂系统。这里是"先讲为什么,再讲怎么做",假设你想看懂源码。
vs PagedAttention 论文
论文 12 页讲清核心 idea,但不讲怎么在源码里找到对应实现、不讲 v0 → v1 重构、不讲 prefix cache 的 chain hash 细节。这里把这些填进来。
vs Karpathy 的 GPT 教程
Karpathy 教你 训练。这里教你 serving。两者都需要,但 serving 是 90% 工程师工作里看不见的那 90%。
vs CS162 / OSTEP
OSTEP 教 OS 概念。这里教怎么把这些概念用在 GPU 上。OS 是母语,vLLM 是方言;这本是从方言里反查母语的字典。
066 个月路线一览
vllm serve、配 pre-commit。目标是能复现。block_pool.py → 画对照表。这一步学透,后面都顺。csrc/;理解 IO-aware;跑 benchmark 画图。第 3 个 PR。07第一次访问应该做什么
- 读 00 心智模型(15 分钟)—— 建立全局观。
- 翻一眼 OS ↔ vLLM 速查表,不要背,只为了之后知道去哪查。
- 开始 Week 0 环境配置,跑通 vLLM。
- 然后按月份顺序往下走。每月一个主题,不并行。
在校学生 / 兼职:每周 6–8h,拉到 9 个月,路线不变。
时间太碎的:先只走 M1–M3(最有杠杆的三个月),后面再决定。
08贡献 · 反馈 · 协作
这份教材开源在 GitHub,CC BY 4.0 协议。
- 看到错的(事实错、链接死、代码不能跑):开 issue 或直接 PR。
- 有更好的图:欢迎贡献。SVG inline 在 HTML 里方便协作。
- 走完了 6 个月:写一段你的体验,发 issue 标
retrospective,我会精选合并进来当读后感。 - 你的 mini-vLLM:仓库 README 链回这里,我会把它加到主页 showcase。
这份教程基于 vllm-learning-plan.md 与 cs162-aisys-guide.md 重构而成。原文档保留以供参考。
作者:Weishu Zhang · 起始日期 2026-05 · 最近一次大更新:2026-05-29 (v2 textbook edition)。