去绑定

从零学大语言模型特邀讲座：Dan Fu | 斯坦福CS336 2026春季

斯坦福课程 2026-06-29

26次播放

2026-06-29

视频 AI 总结：该演讲深入探讨了大语言模型推理系统的技术细节，从请求调度、KV缓存管理到预填充与解码的分离优化，并介绍了两个前沿研究：通过Megakernels融合内核实现解码加速，以及采用循环Transformer架构的Parcae模型，展示了理解推理底层如何推动全栈创新。
主要内容：

推理系统生命周期：请求调度、KV缓存、预填充与解码的差异及优化策略。
连续批处理：如何在多请求场景下高效利用GPU资源。
硬件与架构：GPU、NVLink、以及针对解码优化的专用芯片（如LPU）。
Megakernels：通过融合多个操作为单一内核，实现30%-70%的解码速度提升，接近GPU理论极限。
Parcae：循环Transformer通过状态空间模型理论稳定训练，发现随着数据量增加应同步增加循环次数，性能优于传统Transformer。
推理中的实际问题：大规模部署中的bug（如NaN、工具调用错误、中文乱码等）与故障容忍。

课件与代码：https://cs336.stanford.edu/

标签：推理优化 GPU内核 KV缓存 Megakernels 循环Transformer 大语言模型