muP初始化

微信扫码分享
从零学大语言模型 L11:Scaling Laws | 斯坦福CS336  2026春季

从零学大语言模型 L11:Scaling Laws | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频是有关大语言模型扩展(scaling)的讲座,深入探讨了扩展定律在实际模型训练中的应用细节,包括学习率、批量大小等超参数的优化方法,以及不同优化器(如Adam、muon)和初始化策略(如muP)对扩展的影响。主讲人强调扩展实验并非纯粹的科學,而是一门需要经验和判断的艺术,并对比了DeepSeek和MiniCPM等模型的扩展策略,最后总结了当前扩展领域的挑战和主流做法。 **主要内容**: - 介绍经典扩展定律(Kaplan、Chinchilla)在现实开源模型中的可复现性及局限性。 - 讨论 MiniCPM 和 DeepSeek 两种不同的超参数扩展策略:muP 初始化稳定学习率 vs 拟合扩展定律预测最优值。 - 分析优化器(如 muon)在小规模和大规模下的表现差异,强调超参数交互和 Chinchilla 比例对结果的影响。 - 详细讲解 muP 初始化方法的数学推导和实际效果,包括分参数的学习率调节。 - 总结当今扩展工作的趋势:越来越多模型采用 MoE 扩展定律,且论文中超参数细节逐渐成为标准操作。 - 强调扩展实践中的不确定性,建议使用 muP 或扩展定律拟合等方法来控制超参数漂移。 课件与代码:https://cs336.stanford.edu/

25 0 0 2 天前