从零学大语言模型 L5:GPU、TPU | 斯坦福CS336 2026春季

23次播放
2026-06-30

视频 AI 总结:该讲座是斯坦福 CS 229 关于 GPU 系统与并行化的课程,重点讲解了 GPU 的硬件架构、编程模型以及加速深度学习计算的关键优化技巧。核心内容围绕如何通过理解 GPU 的内存层次结构、利用并行性以及各种系统级技巧(如低精度计算、算子融合、重计算、内存合并和分块)来提升计算效率。最后以 FlashAttention 为例,展示了如何综合运用这些技巧实现高效的注意力机制计算。

主要内容

  • GPU 硬件基础:流式多处理器 (SM)、线程块、束 (warp) 和内存层次(全局内存、共享内存、寄存器)的概念与特点。
  • GPU 与 CPU 的对比:CPU 追求低延迟,GPU 追求高吞吐量,通过大量轻量级核心实现并行。
  • 芯片演化与摩尔定律失效:从提高单核频率转向并行扩展,GPU 通过增加 SM 数量提升算力。
  • 低精度计算:FP32→BF16→INT8→FP8 等格式大幅降低内存流量,但需处理量化精度问题,如 MXFP8 和 MXFP4 的分块缩放因子。
  • 算子融合:将多个连续操作合并为一个 GPU 内核,减少全局内存读写次数。
  • 重计算:在反向传播中丢弃中间激活,需要时重新计算,以内存换算力。
  • 内存合并:利用 DRAM 突发传输特性,使线程访问连续对齐的地址,提高内存带宽利用率。
  • 分块:将大矩阵切分为子块加载到共享内存中,减少全局内存访问次数,是矩阵乘法和 FlashAttention 的核心。
  • 软注意力 FlashAttention:通过在线 softmax 和分块迭代实现内存高效的注意力计算,结合重计算避免存储完整注意力矩阵。

课件与代码:https://cs336.stanford.edu/