优化器

微信扫码分享
从零学大语言模型 L11:Scaling Laws | 斯坦福CS336  2026春季

从零学大语言模型 L11:Scaling Laws | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频是有关大语言模型扩展(scaling)的讲座,深入探讨了扩展定律在实际模型训练中的应用细节,包括学习率、批量大小等超参数的优化方法,以及不同优化器(如Adam、muon)和初始化策略(如muP)对扩展的影响。主讲人强调扩展实验并非纯粹的科學,而是一门需要经验和判断的艺术,并对比了DeepSeek和MiniCPM等模型的扩展策略,最后总结了当前扩展领域的挑战和主流做法。 **主要内容**: - 介绍经典扩展定律(Kaplan、Chinchilla)在现实开源模型中的可复现性及局限性。 - 讨论 MiniCPM 和 DeepSeek 两种不同的超参数扩展策略:muP 初始化稳定学习率 vs 拟合扩展定律预测最优值。 - 分析优化器(如 muon)在小规模和大规模下的表现差异,强调超参数交互和 Chinchilla 比例对结果的影响。 - 详细讲解 muP 初始化方法的数学推导和实际效果,包括分参数的学习率调节。 - 总结当今扩展工作的趋势:越来越多模型采用 MoE 扩展定律,且论文中超参数细节逐渐成为标准操作。 - 强调扩展实践中的不确定性,建议使用 muP 或扩展定律拟合等方法来控制超参数漂移。 课件与代码:https://cs336.stanford.edu/

25 0 0 2 天前
从零学大语言模型 L2:  PyTorch (einops) | 斯坦福 CS336  2026 春季

从零学大语言模型 L2: PyTorch (einops) | 斯坦福 CS336 2026 春季

**视频 AI 总结**:该视频深入讲解了深度学习训练中的资源核算与效率优化,重点介绍了如何通过理解计算和内存特性来最大化训练效率。内容包括张量存储与操作、FLOPs计算方法、硬件性能指标(如H100 GPU)、算术强度与roofline分析,以及训练过程中的内存管理技术,如梯度累积和激活检查点。视频强调,大多数操作受内存带宽限制,而矩阵乘法是计算密集型的核心,并给出了训练Transformer模型时常用的6×参数×token FLOPs公式。 **主要内容**: - 张量存储与数据类型:介绍float32、float16、bfloat16、fp8等精度,以及混合精度训练。 - 资源核算:计算张量操作的FLOPs,包括矩阵乘法、点积、元素运算等。 - 算术强度与roofline:说明如何通过算术强度判断运算是否受内存或计算限制,并展示矩阵乘法的高算术强度优势。 - 训练内存分析:分解参数、梯度、激活和优化器状态的内存占用,并给出6×参数×token的FLOPs公式来源。 - 内存优化技术:梯度累积(减少激活内存)和激活检查点(通过重计算降低内存,权衡计算开销)。 课件与代码:https://cs336.stanford.edu/

57 0 0 4 天前