/ infra learning path / v2 · textbook edition

用 vLLM 当锚点,
把 AI infra 学成你的母语。

这不是一份课程大纲,而是一本新一代教材: 遇到一个 vLLM 模块再回头补对应的 OS 概念, 每一步都带一个驱动问题、一段可读的代码、一组自检题、和一张让你理解结构的图。

10
章节 · ~10K 行
15
核心论文
3+
vLLM PR 目标
1
原创 mini-vLLM

01这套教程的写法

AI infra 的痛点是:知识树太大——OS、CUDA、分布式、编译器、Transformer 内部、网络。 全刷一遍要两年;只看上层 API 又会卡在第一个性能问题。

这份路径用四条原则压缩它:

① Just-in-time

不刷完整课。遇到 vLLM 某模块卡住 → 反查对应 OS 概念 → 学到能看懂 → 回到代码。每个概念都有"现在用得上"的上下文,记得住。

② 问题驱动

每一节先抛一个问题("vLLM 为什么不用 contiguous KV cache?"),让你先猜再读答案。强迫你形成预期,而不是被动接受信息。

③ 代码锚点

每个概念学完,立刻给一个文件路径:"去读 vllm/v1/core/block_pool.pyget_new_blocks(),带着这 3 个问题。"从抽象 → 真实代码的距离永远 ≤ 1 步。

④ 闭环输出

每月一个产出物:一个 PR、一段笔记、或一份 benchmark。不输出不算学会。月末复盘强制收口,避免知识漂浮。

02学习循环

每个 vLLM 模块都按这个循环走一遍,不跳步:

① 抛问题 "为什么这样设计?" ② 先猜 写下你的预期 ③ 补 OS 概念 OSTEP 那一节 ④ 读真实代码 vLLM 对应文件 ⑤ 输出 / 对账 笔记 · PR · benchmark
每个模块都走完一圈再换下一个。少了哪步都容易忘。

03谁适合读

⚠ 不适合谁
这不是"零基础 AI 入门"。如果你连 PyTorch 都没写过,先去补 Andrej Karpathy 的 Zero-to-Hero,跑通一个最小 Transformer,再回来。

04完整目录

每章都有驱动问题、SVG 图解、代码锚点、自检题四件套。点进去看就明白。

00
心智模型 · "vLLM 是 Token 的 OS"
15 分钟建立全局观:AI infra 在技术栈哪一层、为什么 vLLM 是好的入口、为什么 OS 是它的母语。所有后续章节的根
Week 0
环境 · 工具链 · 第一次跑通
租 A10、clone vLLM、跑通 vllm serve、配 pre-commit。故障排查矩阵覆盖 10+ 常见坑。目标是能复现。
Month 1
读懂入口与请求生命周期
从 HTTP 到 token 输出的完整调用链;async / queue / engine 主循环;v0 vs v1 架构对比;4 段代码深读;完整时序图。提第 1 个 PR
Month 2 ★
PagedAttention — 皇冠章节
KV cache 的数学;OS 虚拟内存深读;block table + chain hash + prefix caching;attention kernel 怎么用 block table;CPU offload。这一步学透,后面都顺。
Month 3
调度器 · Continuous Batching
三种 batching 策略对比;prefill vs decode 的微观分析;OS 调度器复习;4 状态状态机;6 段 scheduler.py 代码深读;Sarathi chunked prefill;200 行可运行 mini-scheduler 模拟器
Month 4
Kernel · FlashAttention · Triton
GPU 内存层级 + roofline;FlashAttention 的 online softmax 数学;paged_attention_v1.cu 完整 walkthrough;CUDA graph 机制;Triton tutorial;benchmark 实战画图。
Month 5
原创项目 · mini-vLLM
~500 行 Python 从零写一个能 serve 一个请求的 paged-attention engine。v0.1 → v0.4 完整代码骨架;跟 vLLM 对照笔记;blog 写作模板。简历最重的那张牌
Month 6
前沿 serving 系统 · 从 toy engine 到生产判断力
prefill/decode 分离、KV transfer、prefix-aware routing、LMCache、speculative decoding、FP8/KV 量化、MoE/MLA serving。用交互实验判断 workload 瓶颈,设计 mini-vLLM v0.6。
P
15 篇论文 · 两圈阅读顺序
第一圈 10 篇打地基,第二圈 5 篇追前沿:speculative decoding、P/D 分离、KV-centric serving、量化和 MoE/Mamba 岔路。每篇含问题—方法—代码对应—追问
OS
OS ↔ vLLM 速查 (常驻参考)
24 个 vLLM 模块逐个映射到 OS 概念;决策树 + 4 对"完美同构"详解。书签它,6 个月回来很多次。

05这本教材跟别的资源有何不同

vs vLLM 官方文档

官方文档是"用户手册 + API 参考",假设你已经懂系统。这里是"先讲为什么,再讲怎么做",假设你想看懂源码。

vs PagedAttention 论文

论文 12 页讲清核心 idea,但不讲怎么在源码里找到对应实现、不讲 v0 → v1 重构、不讲 prefix cache 的 chain hash 细节。这里把这些填进来。

vs Karpathy 的 GPT 教程

Karpathy 教你 训练。这里教你 serving。两者都需要,但 serving 是 90% 工程师工作里看不见的那 90%。

vs CS162 / OSTEP

OSTEP 教 OS 概念。这里教怎么把这些概念用在 GPU 上。OS 是母语,vLLM 是方言;这本是从方言里反查母语的字典。

066 个月路线一览

07第一次访问应该做什么

  1. 00 心智模型(15 分钟)—— 建立全局观。
  2. 翻一眼 OS ↔ vLLM 速查表不要背,只为了之后知道去哪查。
  3. 开始 Week 0 环境配置,跑通 vLLM。
  4. 然后按月份顺序往下走。每月一个主题,不并行。
💡 节奏建议
全职 + 1 个其他大任务:每周投入 12–15h,6 个月走完 90%。
在校学生 / 兼职:每周 6–8h,拉到 9 个月,路线不变。
时间太碎的:先只走 M1–M3(最有杠杆的三个月),后面再决定。

08贡献 · 反馈 · 协作

这份教材开源在 GitHub,CC BY 4.0 协议。


这份教程基于 vllm-learning-plan.mdcs162-aisys-guide.md 重构而成。原文档保留以供参考。
作者:Weishu Zhang · 起始日期 2026-05 · 最近一次大更新:2026-05-29 (v2 textbook edition)。