登链社区

从零学大语言模型 L8：并行2 | 斯坦福CS336 2026春季

**视频 AI 总结**：本视频深入讲解了现代大规模语言模型训练中的并行化策略，包括数据并行、模型并行（张量并行、流水线并行、专家并行）以及 ZeRO 优化（FSDP）。核心目标是解决计算和内存瓶颈，通过多 GPU 和多节点协作实现高效训练。视频强调了不同并行策略的通信代价、适用场景以及如何组合它们（3D/4D 并行）以最大化硬件利用率，并列举了 Llama3、DeepSeek 等实际模型的并行配置案例。 **主要内容**： - 并行化的两大驱动因素：计算能力不足和内存限制。 - 数据并行：简单但无法节省内存，ZeRO 系列（Stage 1-3/FSDP）通过分片优化器状态、梯度甚至参数来大幅降低内存占用，且通信开销可被隐藏。 - 模型并行：包括流水线并行（沿深度切分，通信量小但存在气泡）、张量并行（沿宽度切分，通信密集但适合高速互连）、专家并行（用于 MoE 模型，减少通信延迟）。 - 上下文并行（环注意力）处理超长序列。 - 实际训练中的并行组合策略：先使用数据并行最大化，再根据模型大小和硬件拓扑加入张量/专家并行（通常 ≤8），最后用流水线并行跨节点，并利用梯度累积解决小批量问题。 - 案例：Llama3 405B 使用 8 张量并行、16 流水线并行、128 数据并行；DeepSeek V3 采用 64 路专家并行结合流水线并行。课件与代码：https://cs336.stanford.edu/

30 0 0 2 天前