从零学大语言模型 L5:GPU、TPU | 斯坦福CS336 2026春季
**视频 AI 总结**:该讲座是斯坦福 CS 229 关于 GPU 系统与并行化的课程,重点讲解了 GPU 的硬件架构、编程模型以及加速深度学习计算的关键优化技巧。核心内容围绕如何通过理解 GPU 的内存层次结构、利用并行性以及各种系统级技巧(如低精度计算、算子融合、重计算、内存合并和分块)来提升计算效率。最后以 FlashAttention 为例,展示了如何综合运用这些技巧实现高效的注意力机制计算。 **主要内容**: - GPU 硬件基础:流式多处理器 (SM)、线程块、束 (warp) 和内存层次(全局内存、共享内存、寄存器)的概念与特点。 - GPU 与 CPU 的对比:CPU 追求低延迟,GPU 追求高吞吐量,通过大量轻量级核心实现并行。 - 芯片演化与摩尔定律失效:从提高单核频率转向并行扩展,GPU 通过增加 SM 数量提升算力。 - 低精度计算:FP32→BF16→INT8→FP8 等格式大幅降低内存流量,但需处理量化精度问题,如 MXFP8 和 MXFP4 的分块缩放因子。 - 算子融合:将多个连续操作合并为一个 GPU 内核,减少全局内存读写次数。 - 重计算:在反向传播中丢弃中间激活,需要时重新计算,以内存换算力。 - 内存合并:利用 DRAM 突发传输特性,使线程访问连续对齐的地址,提高内存带宽利用率。 - 分块:将大矩阵切分为子块加载到共享内存中,减少全局内存访问次数,是矩阵乘法和 FlashAttention 的核心。 - 软注意力 FlashAttention:通过在线 softmax 和分块迭代实现内存高效的注意力计算,结合重计算避免存储完整注意力矩阵。 课件与代码:https://cs336.stanford.edu/