从零学大语言模型 L4:MoE|斯坦福 CS336 2025 春季
视频AI总结:本讲座深入讲解了混合专家模型(MoE)的核心概念、路由机制、训练优化和系统实现。MoE通过稀疏激活多个专家(即小型前馈网络),在相同FLOPs下获得更好性能,成为现代高性能AI系统的核心架构。讲座详细介绍了路由方法(如token choice top-K)、专家配置(细粒度专家+共享专家)、训练中的负载平衡技巧(如辅助损失和动态偏置),以及系统并行(专家并行和token dropping)。以DeepSeek系列为例,从V1到V3展示了MoE架构的演化,包括路由优化、通信成本控制和辅助损失改进。最后讨论了MoE的稳定性问题和升级策略(upcycling)。 关键信息:MoE通过稀疏激活多个专家在相同计算量下提升性能;主流路由为token choice top-K;训练需负载平衡损失防止专家闲置;系统实现依赖专家并行和通信优化;DeepSeek-V3采用细粒度专家、无辅助损失平衡和序列级损失;MoE在大型模型中优势明显,但训练和推理的系统复杂性较高。 课件与代码:https://cs336.stanford.edu/spring2025/
3
0
0
2025-06-27 16:29