从零学大语言模型 特邀讲座:Dan Fu | 斯坦福CS336 2026春季

26次播放
2026-06-29

视频 AI 总结:该演讲深入探讨了大语言模型推理系统的技术细节,从请求调度、KV缓存管理到预填充与解码的分离优化,并介绍了两个前沿研究:通过Megakernels融合内核实现解码加速,以及采用循环Transformer架构的Parcae模型,展示了理解推理底层如何推动全栈创新。
主要内容

  • 推理系统生命周期:请求调度、KV缓存、预填充与解码的差异及优化策略。
  • 连续批处理:如何在多请求场景下高效利用GPU资源。
  • 硬件与架构:GPU、NVLink、以及针对解码优化的专用芯片(如LPU)。
  • Megakernels:通过融合多个操作为单一内核,实现30%-70%的解码速度提升,接近GPU理论极限。
  • Parcae:循环Transformer通过状态空间模型理论稳定训练,发现随着数据量增加应同步增加循环次数,性能优于传统Transformer。
  • 推理中的实际问题:大规模部署中的bug(如NaN、工具调用错误、中文乱码等)与故障容忍。

课件与代码:https://cs336.stanford.edu/