/ infra learning path / v1
用 vLLM 当锚点,
把 AI infra 学成你的母语。
这不是一份课程大纲,而是一张触发表: 遇到一个 vLLM 模块再回头补对应的 OS 概念, 每一步都带一个驱动问题、一段可读的代码、和一组自检题。
6
月度路线
10
核心论文
3+
vLLM PR 目标
1
mini-vLLM
01这套教程的写法
AI infra 的痛点是:知识树太大——OS、CUDA、分布式、编译器、Transformer 内部、网络。 全刷一遍要两年;只看上层 API 又会卡在第一个性能问题。
这份路径用三条原则压缩它:
① Just-in-time
不刷完整课。遇到 vLLM 某模块卡住 → 反查对应 OS 概念 → 学到能看懂 → 回到代码。每个概念都有"现在用得上"的上下文,记得住。
② 问题驱动
每一节先抛一个问题("vLLM 为什么不用 contiguous KV cache?"),让你先猜再读答案。强迫你形成预期,而不是被动接受信息。
③ 代码锚点
每个概念学完,立刻给一个文件路径:"去读 vllm/core/block_manager.py 的 allocate(),带着这 3 个问题。"从抽象 → 真实代码的距离永远 ≤ 1 步。
④ 闭环输出
每月一个产出物:一个 PR、一段笔记、或一份 benchmark。不输出不算学会。月末复盘强制收口,避免知识漂浮。
02学习循环
每个 vLLM 模块都按这个循环走一遍,不跳步:
每个模块都走完一圈再换下一个。少了哪步都容易忘。
03谁适合读
- 已经会写代码的工程师 / 学生(任何语言都行,Python 优先),想从应用层往下走。
- 对 "LLM serving 怎么跑起来的" 有强烈好奇心。
- 愿意花 6 个月、每周 10–15 小时投入。少于这个强度,可以放缓节奏但流程不要砍。
- OS 基础:知道进程/线程是什么、虚拟地址不是物理地址、什么是 lock 即可。深入概念这里会补。
⚠ 不适合谁
这不是"零基础 AI 入门"。如果你连 PyTorch 都没写过,先去补 Andrej Karpathy 的 Zero-to-Hero,跑通一个最小 Transformer,再回来。
046 个月路线一览
Week 0
环境 · 工具链 · 第一次跑通
租 A10、clone vLLM、跑通
vllm serve、配 pre-commit。目标是能复现。Month 1
读懂入口与请求生命周期
从 HTTP 到 token 输出的完整调用链;async / queue / engine 主循环。提第 1 个 PR(typo 也行)。
Month 2
PagedAttention — 皇冠章节
vLLM 的灵魂。学 OS 虚拟内存 → 读
block_manager.py → 画对照表。这一步学透,后面都顺。Month 3
调度器 · Continuous Batching
Orca + Sarathi-Serve;写一个 mini scheduler 假数据复现。第 2 个 PR 选这块。
Month 4
Kernel · FlashAttention · Triton
读
csrc/;理解 IO-aware;跑 benchmark 画图。第 3 个 PR。Month 5
原创项目 · mini-vLLM
从零写一个能跑的 paged-attention serving engine。这是简历最重的那张牌。
Month 6
收口 · 论文复盘 · 求职
把 PR / 项目 / blog 整理成简历叙事;按方向投递。
05第一次访问应该做什么
- 读 00 心智模型(15 分钟)—— 建立全局观。
- 翻一眼 OS ↔ vLLM 速查表,不要背,只为了之后知道去哪查。
- 开始 Week 0 环境配置,跑通 vLLM。
- 然后按月份顺序往下走。每月一个主题,不并行。
💡 节奏建议
全职 + 1 个其他大任务:每周投入 12–15h,6 个月走完 90%。在校学生 / 兼职:每周 6–8h,拉到 9 个月,路线不变。
时间太碎的:先只走 M1–M3(最有杠杆的三个月),后面再决定。
这份教程基于 vllm-learning-plan.md 与 cs162-aisys-guide.md 重构而成。原文档保留以供参考。