home/tutorial/10 篇论文

10 篇论文 · 按读的顺序

每篇 1-2 小时。读法:找出"问题—方法—代码对应"三段。

AI infra 这条线,读完下面 10 篇 ≈ 拿到 80% 的工程语言。 剩下 20% 是新出的论文,能用这 10 篇当 framework 去快速吸收。 顺序经过设计:每一篇都引出下一篇要回答的新问题。

💡 怎么读论文
不要从摘要读到引用。AI infra 论文几乎统一是这个结构:
  1. Intro 最后一段 → 拿走 contribution 列表(看作者觉得自己解了啥)
  2. Motivation / Background 一节 → 拿走"现状什么不好"
  3. Design 主体 → 找第一张系统图,看懂它
  4. Evaluation 第一张图 → 拿走"性能提升幅度"
  5. Related work → 跳过,等你自己做研究时再回看
全程不超过 90 分钟。写 200 字三段笔记:问题 / 方法 / 跟 vLLM 哪行代码对应。

01必读 7 篇 · 按月对齐

① PagedAttention (vLLM) · SOSP 2023 M2

Kwon et al. · "Efficient Memory Management for Large Language Model Serving with PagedAttention"
arxiv.org/abs/2309.06180

② Orca · OSDI 2022 M3

Yu et al. · "Orca: A Distributed Serving System for Transformer-Based Generative Models"
论文官方 PDF 在 USENIX。

③ Sarathi-Serve · OSDI 2024 M3

Agrawal et al. · "Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve"
arxiv.org/abs/2403.02310

④ SGLang (RadixAttention) · NeurIPS 2024 M2

Zheng et al. · "SGLang: Efficient Execution of Structured Language Model Programs"
arxiv.org/abs/2312.07104

⑤ FlashAttention (v1) · NeurIPS 2022 M4

Dao et al. · "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness"
arxiv.org/abs/2205.14135

⑥ H2O · NeurIPS 2023 M2/M3 之间

Zhang et al. · "H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models"
arxiv.org/abs/2306.14048

⑦ S-LoRA · MLSys 2024 M5+

Sheng et al. · "S-LoRA: Serving Thousands of Concurrent LoRA Adapters"
arxiv.org/abs/2311.03285

02选读 3 篇 · 看兴趣选支

⑧ ZeRO · SC 2020 训练向

Rajbhandari et al. · "ZeRO: Memory Optimizations Toward Training Trillion Parameter Models"

⑨ Megatron-LM (TP/PP) · 系列论文 训练向

⑩ torch.compile / Inductor · ASPLOS 2024 编译器向

Ansel et al. · "PyTorch 2: Faster Machine Learning Through Dynamic Python Bytecode Transformation and Graph Compilation"

03论文笔记模板

每篇读完,在 ~/infra/papers/ 建一个 .md 文件,固定 3 段:

# <论文名> · <会议>

## 问题 (50 字)
现状是什么;现状不好在哪。

## 方法 (100 字)
核心 idea 一句话;最关键的 mechanism (机制) 一段。

## 对账 (50 字)
跟 vLLM 哪行代码 / 哪个模块对得上?(找不到也写"找不到,待查")

## 我学到了 (可选)
反直觉点、巧妙工程、可以借用到 mini-vLLM 的地方。
✓ 论文阅读量
6 个月走完,你应该有 ~15-20 篇论文笔记(7 篇必读 + 你自己 follow 的)。 这是 senior infra 工程师的"概念资本"。面试时随手能援引 = 真的懂

04follow 谁的 Twitter / arxiv