去绑定

从零学大语言模型 L3：架构、超参数｜斯坦福 CS336 2025 春季

斯坦福课程 2025-06-27

137次播放

2025-06-27

视频 AI 总结：本讲座深入探讨了现代大语言模型（LLM）的架构设计与训练细节，重点分析了Transformer的变体、超参数选择以及稳定性技巧。内容涵盖预归一化 vs 后归一化、RMS Norm、SwiGLU激活函数、RoPE位置编码、GQA/MQA注意力机制等关键组件，并讨论了模型宽度深度比例、词汇表大小、权重衰减等超参数的选择依据。最后介绍了稳定性优化方法（如Z-loss、QK归一化）和长上下文注意力模式（如滑动窗口+全局注意力）。

视频关键信息：现代LLM普遍采用预归一化、RMS Norm、RoPE位置编码和SwiGLU；超参数如dff/d_model比约为4或8/3，aspect ratio约128；权重衰减用于改善训练损失而非防止过拟合；Z-loss和QK归一化提升训练稳定性；GQA/MQA优化推理效率；长上下文采用稀疏注意力（如滑动窗口+无位置编码的全局注意力）。

课件与代码：https://cs336.stanford.edu/spring2025/

标签：斯坦福课程 LLM Transformer 模型训练 RoPE SwiGLU