登链社区

从零学大语言模型 L11：Scaling Laws | 斯坦福CS336 2026春季

**视频 AI 总结**：该视频是有关大语言模型扩展（scaling）的讲座，深入探讨了扩展定律在实际模型训练中的应用细节，包括学习率、批量大小等超参数的优化方法，以及不同优化器（如Adam、muon）和初始化策略（如muP）对扩展的影响。主讲人强调扩展实验并非纯粹的科學，而是一门需要经验和判断的艺术，并对比了DeepSeek和MiniCPM等模型的扩展策略，最后总结了当前扩展领域的挑战和主流做法。 **主要内容**： - 介绍经典扩展定律（Kaplan、Chinchilla）在现实开源模型中的可复现性及局限性。 - 讨论 MiniCPM 和 DeepSeek 两种不同的超参数扩展策略：muP 初始化稳定学习率 vs 拟合扩展定律预测最优值。 - 分析优化器（如 muon）在小规模和大规模下的表现差异，强调超参数交互和 Chinchilla 比例对结果的影响。 - 详细讲解 muP 初始化方法的数学推导和实际效果，包括分参数的学习率调节。 - 总结当今扩展工作的趋势：越来越多模型采用 MoE 扩展定律，且论文中超参数细节逐渐成为标准操作。 - 强调扩展实践中的不确定性，建议使用 muP 或扩展定律拟合等方法来控制超参数漂移。课件与代码：https://cs336.stanford.edu/

25 0 0 2 天前