登链社区

从零学大语言模型 L9：缩放定律 | 斯坦福CS336 2026春季

**视频 AI 总结**：该视频是斯坦福 CS 336 课程中关于 Scaling Laws（规模定律）的讲座，主要介绍了规模定律的基本概念、历史背景、数据规模定律、模型规模定律，以及如何利用规模定律进行模型工程优化。讲座深入探讨了数据规模、模型参数、计算资源之间的幂律关系，并通过 Chinchilla 与 Kaplan 的对比案例，强调了实验细节对规模定律结论的影响，最后指出 IsoFLOP 方法是一种稳健的实践工具。 **主要内容**： - 规模定律是预测模型性能随资源（数据、参数、计算量）增长而变化的简单幂律规则，用于从小规模实验外推至大规模训练。 - 数据规模定律：模型误差随数据量呈多项式衰减（指数约 -0.1 至 -0.3），比经典参数估计慢得多，类似非参数回归。 - 模型缩放：通过训练不同规模的模型并拟合 log-log 线性趋势，可优化架构、优化器、深度/宽度比例等超参数选择。 - 关键批大小与学习率：批大小存在“临界批大小”（在噪声受限和偏差受限之间平衡），学习率随模型宽度缩放，可采用预测性或重参数化（μP）策略。 - Chinchilla vs. Kaplan 之争：Chinchilla 提出更优的计算分配（20 tokens/参数），而 Kaplan 建议更大的模型；分歧源于参数计数方式、学习率预热、批大小调整等细节。 - IsoFLOP 方法：固定计算预算扫描参数/数据分配，可稳健地估计最优比例，适用于扩散模型、MoE 等场景。课件与代码：https://cs336.stanford.edu/

25 0 0 2 天前