从零学大语言模型 L6:Kernels, Triton, XLA | 斯坦福CS336 2026春季
**视频 AI 总结**:该视频深入讲解了 GPU 编程的核心概念与实战技巧,重点介绍了如何使用 Triton 语言编写高效内核,并通过基准测试和性能分析优化代码。视频从 GPU 的硬件架构(SM、共享内存、HBM)出发,解释了线程、线程块、网格的编程模型,然后通过 GeLU、Softmax、矩阵乘法等实例,演示了从元素级操作到复杂 tile 算法的实现过程,强调了理解硬件特性(如 warp、bank conflict、内存合并)对性能的关键影响。 **主要内容**: - GPU 硬件层级:SM、寄存器、L1/共享内存、L2 缓存、HBM,以及带宽与延迟的权衡。 - 编程模型:线程、线程块(CTA)、网格,以及 warp 的概念和分支发散问题。 - 性能影响因素:occupancy、bank conflict、内存合并、块占用率等。 - 基准测试与性能分析:使用 CUDA events 测量时间,用 profiler 观察内核调用。 - Triton 内核编写:以 GeLU、Softmax、行求和、矩阵乘法为例,展示从简单到复杂的实现。 - 代码优化策略:tiling、kernel fusion(如 matmul + ReLU)、减少 HBM 访问次数。 课件与代码:https://cs336.stanford.edu/