从零学大语言模型 L6:Kernels, Triton, XLA | 斯坦福CS336 2026春季

27次播放
2026-06-30

视频 AI 总结:该视频深入讲解了 GPU 编程的核心概念与实战技巧,重点介绍了如何使用 Triton 语言编写高效内核,并通过基准测试和性能分析优化代码。视频从 GPU 的硬件架构(SM、共享内存、HBM)出发,解释了线程、线程块、网格的编程模型,然后通过 GeLU、Softmax、矩阵乘法等实例,演示了从元素级操作到复杂 tile 算法的实现过程,强调了理解硬件特性(如 warp、bank conflict、内存合并)对性能的关键影响。

主要内容

  • GPU 硬件层级:SM、寄存器、L1/共享内存、L2 缓存、HBM,以及带宽与延迟的权衡。
  • 编程模型:线程、线程块(CTA)、网格,以及 warp 的概念和分支发散问题。
  • 性能影响因素:occupancy、bank conflict、内存合并、块占用率等。
  • 基准测试与性能分析:使用 CUDA events 测量时间,用 profiler 观察内核调用。
  • Triton 内核编写:以 GeLU、Softmax、行求和、矩阵乘法为例,展示从简单到复杂的实现。
  • 代码优化策略:tiling、kernel fusion(如 matmul + ReLU)、减少 HBM 访问次数。

课件与代码:https://cs336.stanford.edu/