登链社区

从零学大语言模型 L4：MoE｜斯坦福 CS336 2025 春季

视频AI总结：本讲座深入讲解了混合专家模型（MoE）的核心概念、路由机制、训练优化和系统实现。MoE通过稀疏激活多个专家（即小型前馈网络），在相同FLOPs下获得更好性能，成为现代高性能AI系统的核心架构。讲座详细介绍了路由方法（如token choice top-K）、专家配置（细粒度专家+共享专家）、训练中的负载平衡技巧（如辅助损失和动态偏置），以及系统并行（专家并行和token dropping）。以DeepSeek系列为例，从V1到V3展示了MoE架构的演化，包括路由优化、通信成本控制和辅助损失改进。最后讨论了MoE的稳定性问题和升级策略（upcycling）。关键信息：MoE通过稀疏激活多个专家在相同计算量下提升性能；主流路由为token choice top-K；训练需负载平衡损失防止专家闲置；系统实现依赖专家并行和通信优化；DeepSeek-V3采用细粒度专家、无辅助损失平衡和序列级损失；MoE在大型模型中优势明显，但训练和推理的系统复杂性较高。课件与代码：https://cs336.stanford.edu/spring2025/

3 0 0 2025-06-27 16:29