从零学大语言模型 L10:推理 | 斯坦福CS336 2026春季

26次播放
2026-06-30

视频 AI 总结:本讲座深入探讨了大语言模型推理的优化问题。推理与训练不同,由于自回归生成的顺序性,推理过程高度依赖内存带宽,尤其是注意力层的 KV 缓存成为主要瓶颈。讲座首先分析了推理的计算强度,指出预填充阶段计算受限,生成阶段内存受限。随后介绍了多种提升推理效率的技术,包括通过分组查询注意力(GQA)、多潜在注意力(MLA)、滑动窗口等减少 KV 缓存大小,以及量化、模型剪枝、推测解码等方法。最后讨论了动态工作负载下的连续批处理和分页注意力等系统级优化。这些技术共同致力于在不大幅降低模型准确性的前提下,提升推理的吞吐量和降低延迟。

主要内容

  • 推理的重要性和性能指标(时间至首词、延迟、吞吐量)
  • 推理与训练的根本区别:自回归生成导致序列维度无法并行化
  • 计算强度分析:MLP 层和注意力层在预填充与生成阶段的差异,生成阶段注意力层成为内存瓶颈
  • 减少 KV 缓存的方法:分组查询注意力(GQA)、多潜在注意力(MLA)、跨层注意力、滑动窗口注意力等
  • 模型量化与剪枝:PTQ、GPTQ、AWQ 以及基于重要性的结构化剪枝
  • 推测解码:利用小型草稿模型快速生成多个候选,再由目标模型并行验证,实现无损加速
  • 动态批处理与分页注意力:连续批处理应对实时请求,分页注意力解决 KV 缓存的内存碎片问题

课件与代码:https://cs336.stanford.edu/