/ infra learning path / v2 · textbook edition

用 vLLM 当锚点，
把 AI infra 学成你的母语。

这不是一份课程大纲，而是一本新一代教材：遇到一个 vLLM 模块再回头补对应的 OS 概念，每一步都带一个驱动问题、一段可读的代码、一组自检题、和一张让你理解结构的图。

从 00 开始 → 直接进环境配置直接读皇冠章节 M2 进入 M6 前沿 serving 查 OS ↔ vLLM 对照

章节 · ~10K 行

核心论文

vLLM PR 目标

原创 mini-vLLM

01这套教程的写法

AI infra 的痛点是：知识树太大——OS、CUDA、分布式、编译器、Transformer 内部、网络。全刷一遍要两年；只看上层 API 又会卡在第一个性能问题。

这份路径用四条原则压缩它：

① Just-in-time

不刷完整课。遇到 vLLM 某模块卡住 → 反查对应 OS 概念 → 学到能看懂 → 回到代码。每个概念都有"现在用得上"的上下文，记得住。

② 问题驱动

每一节先抛一个问题（"vLLM 为什么不用 contiguous KV cache？"），让你先猜再读答案。强迫你形成预期，而不是被动接受信息。

③ 代码锚点

每个概念学完，立刻给一个文件路径："去读 vllm/v1/core/block_pool.py 的 get_new_blocks()，带着这 3 个问题。"从抽象 → 真实代码的距离永远 ≤ 1 步。

④ 闭环输出

每月一个产出物：一个 PR、一段笔记、或一份 benchmark。不输出不算学会。月末复盘强制收口，避免知识漂浮。

02学习循环

每个 vLLM 模块都按这个循环走一遍，不跳步：

每个模块都走完一圈再换下一个。少了哪步都容易忘。

03谁适合读

已经会写代码的工程师 / 学生（任何语言都行，Python 优先），想从应用层往下走。
对 "LLM serving 怎么跑起来的" 有强烈好奇心。
愿意花 6 个月、每周 10–15 小时投入。少于这个强度，可以放缓节奏但流程不要砍。
OS 基础：知道进程/线程是什么、虚拟地址不是物理地址、什么是 lock 即可。深入概念这里会补。

⚠ 不适合谁

这不是"零基础 AI 入门"。如果你连 PyTorch 都没写过，先去补 Andrej Karpathy 的 Zero-to-Hero，跑通一个最小 Transformer，再回来。

04完整目录

每章都有驱动问题、SVG 图解、代码锚点、自检题四件套。点进去看就明白。

心智模型 · "vLLM 是 Token 的 OS"

15 分钟建立全局观：AI infra 在技术栈哪一层、为什么 vLLM 是好的入口、为什么 OS 是它的母语。所有后续章节的根。

Week 0

环境 · 工具链 · 第一次跑通

租 A10、clone vLLM、跑通 vllm serve、配 pre-commit。故障排查矩阵覆盖 10+ 常见坑。目标是能复现。

Month 1

读懂入口与请求生命周期

从 HTTP 到 token 输出的完整调用链；async / queue / engine 主循环；v0 vs v1 架构对比；4 段代码深读；完整时序图。提第 1 个 PR。

Month 2 ★

PagedAttention — 皇冠章节

KV cache 的数学；OS 虚拟内存深读；block table + chain hash + prefix caching；attention kernel 怎么用 block table；CPU offload。这一步学透，后面都顺。

Month 3

调度器 · Continuous Batching

三种 batching 策略对比；prefill vs decode 的微观分析；OS 调度器复习；4 状态状态机；6 段 scheduler.py 代码深读；Sarathi chunked prefill；200 行可运行 mini-scheduler 模拟器。

Month 4

Kernel · FlashAttention · Triton

GPU 内存层级 + roofline；FlashAttention 的 online softmax 数学；paged_attention_v1.cu 完整 walkthrough；CUDA graph 机制；Triton tutorial；benchmark 实战画图。

Month 5

原创项目 · mini-vLLM

~500 行 Python 从零写一个能 serve 一个请求的 paged-attention engine。v0.1 → v0.4 完整代码骨架；跟 vLLM 对照笔记；blog 写作模板。简历最重的那张牌。

Month 6

前沿 serving 系统 · 从 toy engine 到生产判断力

prefill/decode 分离、KV transfer、prefix-aware routing、LMCache、speculative decoding、FP8/KV 量化、MoE/MLA serving。用交互实验判断 workload 瓶颈，设计 mini-vLLM v0.6。

15 篇论文 · 两圈阅读顺序

第一圈 10 篇打地基，第二圈 5 篇追前沿：speculative decoding、P/D 分离、KV-centric serving、量化和 MoE/Mamba 岔路。每篇含问题—方法—代码对应—追问。

OS ↔ vLLM 速查 (常驻参考)

24 个 vLLM 模块逐个映射到 OS 概念；决策树 + 4 对"完美同构"详解。书签它，6 个月回来很多次。

05这本教材跟别的资源有何不同

vs vLLM 官方文档

官方文档是"用户手册 + API 参考"，假设你已经懂系统。这里是"先讲为什么，再讲怎么做"，假设你想看懂源码。

vs PagedAttention 论文

论文 12 页讲清核心 idea，但不讲怎么在源码里找到对应实现、不讲 v0 → v1 重构、不讲 prefix cache 的 chain hash 细节。这里把这些填进来。

vs Karpathy 的 GPT 教程

Karpathy 教你训练。这里教你 serving。两者都需要，但 serving 是 90% 工程师工作里看不见的那 90%。

vs CS162 / OSTEP

OSTEP 教 OS 概念。这里教怎么把这些概念用在 GPU 上。OS 是母语，vLLM 是方言；这本是从方言里反查母语的字典。

066 个月路线一览

Week 0

环境 · 工具链 · 第一次跑通

租 A10、clone vLLM、跑通 vllm serve、配 pre-commit。目标是能复现。

Month 1

读懂入口与请求生命周期

从 HTTP 到 token 输出的完整调用链；async / queue / engine 主循环。提第 1 个 PR（typo 也行）。

Month 2

PagedAttention — 皇冠章节

vLLM 的灵魂。学 OS 虚拟内存 → 读 block_pool.py → 画对照表。这一步学透，后面都顺。

Month 3

调度器 · Continuous Batching

Orca + Sarathi-Serve；写一个 mini scheduler 假数据复现。第 2 个 PR 选这块。

Month 4

Kernel · FlashAttention · Triton

读 csrc/；理解 IO-aware；跑 benchmark 画图。第 3 个 PR。

Month 5

原创项目 · mini-vLLM

从零写一个能跑的 paged-attention serving engine。这是简历最重的那张牌。

Month 6

前沿 serving 系统 · 收口成生产判断力

从 mini-vLLM 出发，读 DistServe / Mooncake / LMCache / vLLM disagg，把优化选择绑定到 TTFT、ITL、KV、goodput 和成本。

07第一次访问应该做什么

读 00 心智模型（15 分钟）—— 建立全局观。
翻一眼 OS ↔ vLLM 速查表，不要背，只为了之后知道去哪查。
开始 Week 0 环境配置，跑通 vLLM。
然后按月份顺序往下走。每月一个主题，不并行。

💡 节奏建议

全职 + 1 个其他大任务：每周投入 12–15h，6 个月走完 90%。
在校学生 / 兼职：每周 6–8h，拉到 9 个月，路线不变。
时间太碎的：先只走 M1–M3（最有杠杆的三个月），后面再决定。

08贡献 · 反馈 · 协作

这份教材开源在 GitHub，CC BY 4.0 协议。

看到错的（事实错、链接死、代码不能跑）：开 issue 或直接 PR。
有更好的图：欢迎贡献。SVG inline 在 HTML 里方便协作。
走完了 6 个月：写一段你的体验，发 issue 标 retrospective，我会精选合并进来当读后感。
你的 mini-vLLM：仓库 README 链回这里，我会把它加到主页 showcase。

这份教程基于 vllm-learning-plan.md 与 cs162-aisys-guide.md 重构而成。原文档保留以供参考。
作者：Weishu Zhang · 起始日期 2026-05 · 最近一次大更新：2026-05-29 (v2 textbook edition)。

用 vLLM 当锚点，把 AI infra 学成你的母语。

01这套教程的写法

① Just-in-time

② 问题驱动

③ 代码锚点

④ 闭环输出

02学习循环

03谁适合读

04完整目录

05这本教材跟别的资源有何不同

vs vLLM 官方文档

vs PagedAttention 论文

vs Karpathy 的 GPT 教程

vs CS162 / OSTEP

066 个月路线一览

07第一次访问应该做什么

08贡献 · 反馈 · 协作

用 vLLM 当锚点，
把 AI infra 学成你的母语。