登链社区

从零学大语言模型特邀讲座：Dan Fu | 斯坦福CS336 2026春季

**视频 AI 总结**：该演讲深入探讨了大语言模型推理系统的技术细节，从请求调度、KV缓存管理到预填充与解码的分离优化，并介绍了两个前沿研究：通过Megakernels融合内核实现解码加速，以及采用循环Transformer架构的Parcae模型，展示了理解推理底层如何推动全栈创新。 **主要内容**： - 推理系统生命周期：请求调度、KV缓存、预填充与解码的差异及优化策略。 - 连续批处理：如何在多请求场景下高效利用GPU资源。 - 硬件与架构：GPU、NVLink、以及针对解码优化的专用芯片（如LPU）。 - Megakernels：通过融合多个操作为单一内核，实现30%-70%的解码速度提升，接近GPU理论极限。 - Parcae：循环Transformer通过状态空间模型理论稳定训练，发现随着数据量增加应同步增加循环次数，性能优于传统Transformer。 - 推理中的实际问题：大规模部署中的bug（如NaN、工具调用错误、中文乱码等）与故障容忍。课件与代码：https://cs336.stanford.edu/

26 0 0 3 天前

从零学大语言模型 特邀讲座：Dan Fu | 斯坦福CS336 2026春季

从零学大语言模型特邀讲座：Dan Fu | 斯坦福CS336 2026春季