去绑定

从零学大语言模型 L6：Kernels, Triton, XLA | 斯坦福CS336 2026春季

斯坦福课程 2026-06-30

27次播放

2026-06-30

视频 AI 总结：该视频深入讲解了 GPU 编程的核心概念与实战技巧，重点介绍了如何使用 Triton 语言编写高效内核，并通过基准测试和性能分析优化代码。视频从 GPU 的硬件架构（SM、共享内存、HBM）出发，解释了线程、线程块、网格的编程模型，然后通过 GeLU、Softmax、矩阵乘法等实例，演示了从元素级操作到复杂 tile 算法的实现过程，强调了理解硬件特性（如 warp、bank conflict、内存合并）对性能的关键影响。

主要内容：

GPU 硬件层级：SM、寄存器、L1/共享内存、L2 缓存、HBM，以及带宽与延迟的权衡。
编程模型：线程、线程块（CTA）、网格，以及 warp 的概念和分支发散问题。
性能影响因素：occupancy、bank conflict、内存合并、块占用率等。
基准测试与性能分析：使用 CUDA events 测量时间，用 profiler 观察内核调用。
Triton 内核编写：以 GeLU、Softmax、行求和、矩阵乘法为例，展示从简单到复杂的实现。
代码优化策略：tiling、kernel fusion（如 matmul + ReLU）、减少 HBM 访问次数。

课件与代码：https://cs336.stanford.edu/

标签： TON GPU Triton CUDA 内核编程性能优化