从零学大语言模型 L3:架构、超参数 | 斯坦福 CS336 2025 春季

14次播放
2025-06-27

视频 AI 总结:本讲座深入探讨了现代大语言模型(LLM)的架构设计与训练细节,重点分析了Transformer的变体、超参数选择以及稳定性技巧。内容涵盖预归一化 vs 后归一化、RMS Norm、SwiGLU激活函数、RoPE位置编码、GQA/MQA注意力机制等关键组件,并讨论了模型宽度深度比例、词汇表大小、权重衰减等超参数的选择依据。最后介绍了稳定性优化方法(如Z-loss、QK归一化)和长上下文注意力模式(如滑动窗口+全局注意力)。

视频关键信息:现代LLM普遍采用预归一化、RMS Norm、RoPE位置编码和SwiGLU;超参数如dff/d_model比约为4或8/3,aspect ratio约128;权重衰减用于改善训练损失而非防止过拟合;Z-loss和QK归一化提升训练稳定性;GQA/MQA优化推理效率;长上下文采用稀疏注意力(如滑动窗口+无位置编码的全局注意力)。

课件与代码:https://cs336.stanford.edu/spring2025/