张量并行

微信扫码分享
从零学大语言模型 L8:并行2 | 斯坦福CS336  2026春季

从零学大语言模型 L8:并行2 | 斯坦福CS336 2026春季

**视频 AI 总结**:本视频深入讲解了现代大规模语言模型训练中的并行化策略,包括数据并行、模型并行(张量并行、流水线并行、专家并行)以及 ZeRO 优化(FSDP)。核心目标是解决计算和内存瓶颈,通过多 GPU 和多节点协作实现高效训练。视频强调了不同并行策略的通信代价、适用场景以及如何组合它们(3D/4D 并行)以最大化硬件利用率,并列举了 Llama3、DeepSeek 等实际模型的并行配置案例。 **主要内容**: - 并行化的两大驱动因素:计算能力不足和内存限制。 - 数据并行:简单但无法节省内存,ZeRO 系列(Stage 1-3/FSDP)通过分片优化器状态、梯度甚至参数来大幅降低内存占用,且通信开销可被隐藏。 - 模型并行:包括流水线并行(沿深度切分,通信量小但存在气泡)、张量并行(沿宽度切分,通信密集但适合高速互连)、专家并行(用于 MoE 模型,减少通信延迟)。 - 上下文并行(环注意力)处理超长序列。 - 实际训练中的并行组合策略:先使用数据并行最大化,再根据模型大小和硬件拓扑加入张量/专家并行(通常 ≤8),最后用流水线并行跨节点,并利用梯度累积解决小批量问题。 - 案例:Llama3 405B 使用 8 张量并行、16 流水线并行、128 数据并行;DeepSeek V3 采用 64 路专家并行结合流水线并行。 课件与代码:https://cs336.stanford.edu/

30 0 0 2 天前
从零学大语言模型 L7:并行1  | 斯坦福CS336  2026春季

从零学大语言模型 L7:并行1 | 斯坦福CS336 2026春季

**视频 AI 总结**:该讲座深入讲解了如何利用多个 GPU 加速深度学习模型训练,重点介绍了分布式通信原语、硬件连接方式以及三种主要的并行策略(数据并行、张量并行、流水线并行)。内容从单 GPU 优化扩展到多 GPU 场景,强调编排计算以避免数据传输瓶颈,并展示了在 PyTorch 中实现这些技术的具体代码。 **主要内容**: - 分布式编程基础:集体操作(Broadcast、Scatter、Gather、Reduce、AllReduce、AllGather、ReduceScatter、All-to-All)的定义与用途。 - 硬件拓扑:GPU 通过 NVLink/NVSwitch(节点内)和 InfiniBand(节点间)连接,以及 RDMA 技术的重要性。 - PyTorch 实现:使用 `torch.distributed` 库调用集体操作,并通过 NCCL 后端进行高性能通信。 - 数据并行(DDP):按数据切分,各 GPU 独立前向/反向传播后 AllReduce 梯度,实现参数同步。 - 张量并行:按层或矩阵维度切分,正向时 AllGather 激活,反向时 ReduceScatter 梯度。 - 流水线并行:按层切分网络,通过微批次(micro-batches)和重叠通信计算减少气泡。 课件与代码:https://cs336.stanford.edu/

33 0 0 2 天前