去绑定

从零学大语言模型 L5：GPU、TPU | 斯坦福CS336 2026春季

斯坦福课程 2026-06-30

23次播放

2026-06-30

视频 AI 总结：该讲座是斯坦福 CS 229 关于 GPU 系统与并行化的课程，重点讲解了 GPU 的硬件架构、编程模型以及加速深度学习计算的关键优化技巧。核心内容围绕如何通过理解 GPU 的内存层次结构、利用并行性以及各种系统级技巧（如低精度计算、算子融合、重计算、内存合并和分块）来提升计算效率。最后以 FlashAttention 为例，展示了如何综合运用这些技巧实现高效的注意力机制计算。

主要内容：

GPU 硬件基础：流式多处理器 (SM)、线程块、束 (warp) 和内存层次（全局内存、共享内存、寄存器）的概念与特点。
GPU 与 CPU 的对比：CPU 追求低延迟，GPU 追求高吞吐量，通过大量轻量级核心实现并行。
芯片演化与摩尔定律失效：从提高单核频率转向并行扩展，GPU 通过增加 SM 数量提升算力。
低精度计算：FP32→BF16→INT8→FP8 等格式大幅降低内存流量，但需处理量化精度问题，如 MXFP8 和 MXFP4 的分块缩放因子。
算子融合：将多个连续操作合并为一个 GPU 内核，减少全局内存读写次数。
重计算：在反向传播中丢弃中间激活，需要时重新计算，以内存换算力。
内存合并：利用 DRAM 突发传输特性，使线程访问连续对齐的地址，提高内存带宽利用率。
分块：将大矩阵切分为子块加载到共享内存中，减少全局内存访问次数，是矩阵乘法和 FlashAttention 的核心。
软注意力 FlashAttention：通过在线 softmax 和分块迭代实现内存高效的注意力计算，结合重计算避免存储完整注意力矩阵。

课件与代码：https://cs336.stanford.edu/

标签： GPU 并行计算 FlashAttention 深度学习加速内存优化