从零学大语言模型 特邀讲座:Dan Fu | 斯坦福CS336 2026春季
**视频 AI 总结**:该演讲深入探讨了大语言模型推理系统的技术细节,从请求调度、KV缓存管理到预填充与解码的分离优化,并介绍了两个前沿研究:通过Megakernels融合内核实现解码加速,以及采用循环Transformer架构的Parcae模型,展示了理解推理底层如何推动全栈创新。 **主要内容**: - 推理系统生命周期:请求调度、KV缓存、预填充与解码的差异及优化策略。 - 连续批处理:如何在多请求场景下高效利用GPU资源。 - 硬件与架构:GPU、NVLink、以及针对解码优化的专用芯片(如LPU)。 - Megakernels:通过融合多个操作为单一内核,实现30%-70%的解码速度提升,接近GPU理论极限。 - Parcae:循环Transformer通过状态空间模型理论稳定训练,发现随着数据量增加应同步增加循环次数,性能优于传统Transformer。 - 推理中的实际问题:大规模部署中的bug(如NaN、工具调用错误、中文乱码等)与故障容忍。 课件与代码:https://cs336.stanford.edu/
26
0
0
3 天前