Kaplan

微信扫码分享
从零学大语言模型 L9:缩放定律 | 斯坦福CS336  2026春季

从零学大语言模型 L9:缩放定律 | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频是斯坦福 CS 336 课程中关于 Scaling Laws(规模定律)的讲座,主要介绍了规模定律的基本概念、历史背景、数据规模定律、模型规模定律,以及如何利用规模定律进行模型工程优化。讲座深入探讨了数据规模、模型参数、计算资源之间的幂律关系,并通过 Chinchilla 与 Kaplan 的对比案例,强调了实验细节对规模定律结论的影响,最后指出 IsoFLOP 方法是一种稳健的实践工具。 **主要内容**: - 规模定律是预测模型性能随资源(数据、参数、计算量)增长而变化的简单幂律规则,用于从小规模实验外推至大规模训练。 - 数据规模定律:模型误差随数据量呈多项式衰减(指数约 -0.1 至 -0.3),比经典参数估计慢得多,类似非参数回归。 - 模型缩放:通过训练不同规模的模型并拟合 log-log 线性趋势,可优化架构、优化器、深度/宽度比例等超参数选择。 - 关键批大小与学习率:批大小存在“临界批大小”(在噪声受限和偏差受限之间平衡),学习率随模型宽度缩放,可采用预测性或重参数化(μP)策略。 - Chinchilla vs. Kaplan 之争:Chinchilla 提出更优的计算分配(20 tokens/参数),而 Kaplan 建议更大的模型;分歧源于参数计数方式、学习率预热、批大小调整等细节。 - IsoFLOP 方法:固定计算预算扫描参数/数据分配,可稳健地估计最优比例,适用于扩散模型、MoE 等场景。 课件与代码:https://cs336.stanford.edu/

25 0 0 2 天前