/ infra learning path / v1

用 vLLM 当锚点,
把 AI infra 学成你的母语。

这不是一份课程大纲,而是一张触发表: 遇到一个 vLLM 模块再回头补对应的 OS 概念, 每一步都带一个驱动问题、一段可读的代码、和一组自检题。

6
月度路线
10
核心论文
3+
vLLM PR 目标
1
mini-vLLM

01这套教程的写法

AI infra 的痛点是:知识树太大——OS、CUDA、分布式、编译器、Transformer 内部、网络。 全刷一遍要两年;只看上层 API 又会卡在第一个性能问题。

这份路径用三条原则压缩它:

① Just-in-time

不刷完整课。遇到 vLLM 某模块卡住 → 反查对应 OS 概念 → 学到能看懂 → 回到代码。每个概念都有"现在用得上"的上下文,记得住。

② 问题驱动

每一节先抛一个问题("vLLM 为什么不用 contiguous KV cache?"),让你先猜再读答案。强迫你形成预期,而不是被动接受信息。

③ 代码锚点

每个概念学完,立刻给一个文件路径:"去读 vllm/core/block_manager.pyallocate(),带着这 3 个问题。"从抽象 → 真实代码的距离永远 ≤ 1 步。

④ 闭环输出

每月一个产出物:一个 PR、一段笔记、或一份 benchmark。不输出不算学会。月末复盘强制收口,避免知识漂浮。

02学习循环

每个 vLLM 模块都按这个循环走一遍,不跳步:

① 抛问题 "为什么这样设计?" ② 先猜 写下你的预期 ③ 补 OS 概念 OSTEP 那一节 ④ 读真实代码 vLLM 对应文件 ⑤ 输出 / 对账 笔记 · PR · benchmark
每个模块都走完一圈再换下一个。少了哪步都容易忘。

03谁适合读

⚠ 不适合谁
这不是"零基础 AI 入门"。如果你连 PyTorch 都没写过,先去补 Andrej Karpathy 的 Zero-to-Hero,跑通一个最小 Transformer,再回来。

046 个月路线一览

05第一次访问应该做什么

  1. 00 心智模型(15 分钟)—— 建立全局观。
  2. 翻一眼 OS ↔ vLLM 速查表不要背,只为了之后知道去哪查。
  3. 开始 Week 0 环境配置,跑通 vLLM。
  4. 然后按月份顺序往下走。每月一个主题,不并行。
💡 节奏建议
全职 + 1 个其他大任务:每周投入 12–15h,6 个月走完 90%。
在校学生 / 兼职:每周 6–8h,拉到 9 个月,路线不变。
时间太碎的:先只走 M1–M3(最有杠杆的三个月),后面再决定。

这份教程基于 vllm-learning-plan.mdcs162-aisys-guide.md 重构而成。原文档保留以供参考。