登链社区

从零学大语言模型 L7：并行1 | 斯坦福CS336 2026春季

**视频 AI 总结**：该讲座深入讲解了如何利用多个 GPU 加速深度学习模型训练，重点介绍了分布式通信原语、硬件连接方式以及三种主要的并行策略（数据并行、张量并行、流水线并行）。内容从单 GPU 优化扩展到多 GPU 场景，强调编排计算以避免数据传输瓶颈，并展示了在 PyTorch 中实现这些技术的具体代码。 **主要内容**： - 分布式编程基础：集体操作（Broadcast、Scatter、Gather、Reduce、AllReduce、AllGather、ReduceScatter、All-to-All）的定义与用途。 - 硬件拓扑：GPU 通过 NVLink/NVSwitch（节点内）和 InfiniBand（节点间）连接，以及 RDMA 技术的重要性。 - PyTorch 实现：使用 `torch.distributed` 库调用集体操作，并通过 NCCL 后端进行高性能通信。 - 数据并行（DDP）：按数据切分，各 GPU 独立前向/反向传播后 AllReduce 梯度，实现参数同步。 - 张量并行：按层或矩阵维度切分，正向时 AllGather 激活，反向时 ReduceScatter 梯度。 - 流水线并行：按层切分网络，通过微批次（micro-batches）和重叠通信计算减少气泡。课件与代码：https://cs336.stanford.edu/

33 0 0 2 天前