优化器

微信扫码分享

从零学大语言模型 L11：Scaling Laws | 斯坦福CS336 2026春季

**视频 AI 总结**：该视频是有关大语言模型扩展（scaling）的讲座，深入探讨了扩展定律在实际模型训练中的应用细节，包括学习率、批量大小等超参数的优化方法，以及不同优化器（如Adam、muon）和初始化策略（如muP）对扩展的影响。主讲人强调扩展实验并非纯粹的科學，而是一门需要经验和判断的艺术，并对比了DeepSeek和MiniCPM等模型的扩展策略，最后总结了当前扩展领域的挑战和主流做法。 **主要内容**： - 介绍经典扩展定律（Kaplan、Chinchilla）在现实开源模型中的可复现性及局限性。 - 讨论 MiniCPM 和 DeepSeek 两种不同的超参数扩展策略：muP 初始化稳定学习率 vs 拟合扩展定律预测最优值。 - 分析优化器（如 muon）在小规模和大规模下的表现差异，强调超参数交互和 Chinchilla 比例对结果的影响。 - 详细讲解 muP 初始化方法的数学推导和实际效果，包括分参数的学习率调节。 - 总结当今扩展工作的趋势：越来越多模型采用 MoE 扩展定律，且论文中超参数细节逐渐成为标准操作。 - 强调扩展实践中的不确定性，建议使用 muP 或扩展定律拟合等方法来控制超参数漂移。课件与代码：https://cs336.stanford.edu/

25 0 0 2 天前

从零学大语言模型 L2: PyTorch (einops) | 斯坦福 CS336 2026 春季

**视频 AI 总结**：该视频深入讲解了深度学习训练中的资源核算与效率优化，重点介绍了如何通过理解计算和内存特性来最大化训练效率。内容包括张量存储与操作、FLOPs计算方法、硬件性能指标（如H100 GPU）、算术强度与roofline分析，以及训练过程中的内存管理技术，如梯度累积和激活检查点。视频强调，大多数操作受内存带宽限制，而矩阵乘法是计算密集型的核心，并给出了训练Transformer模型时常用的6×参数×token FLOPs公式。 **主要内容**： - 张量存储与数据类型：介绍float32、float16、bfloat16、fp8等精度，以及混合精度训练。 - 资源核算：计算张量操作的FLOPs，包括矩阵乘法、点积、元素运算等。 - 算术强度与roofline：说明如何通过算术强度判断运算是否受内存或计算限制，并展示矩阵乘法的高算术强度优势。 - 训练内存分析：分解参数、梯度、激活和优化器状态的内存占用，并给出6×参数×token的FLOPs公式来源。 - 内存优化技术：梯度累积（减少激活内存）和激活检查点（通过重计算降低内存，权衡计算开销）。课件与代码：https://cs336.stanford.edu/

57 0 0 4 天前