从零学大语言模型 L15:Mid/Post-Training | 斯坦福CS336 2026春季

29次播放
2026-06-29

视频 AI 总结:该视频深入讲解了语言模型后训练(post-training)的核心技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。视频指出,预训练模型(如GPT-3)的能力有限,需要通过后训练才能实现指令遵循、安全控制和工具使用等高级功能。SFT阶段强调高质量数据的重要性,而RLHF阶段则通过奖励模型和策略优化(如PPO、DPO)来对齐人类偏好。视频还讨论了数据收集的挑战、标注者偏差、模型过优化和模式崩溃等问题,并展望了未来推理模型的发展方向。

主要内容

  • 后训练是将基础模型(如GPT-3)转化为可用系统(如ChatGPT)的必要步骤,分为SFT和RLHF两个阶段。
  • SFT阶段依赖于高质量人工标注或模型生成的数据,数据量不宜过多,但质量至关重要,需避免引入幻觉和错误知识。
  • RLHF阶段通过人类反馈训练奖励模型,再使用强化学习(如PPO或DPO)优化策略,核心是平衡奖励最大化和KL正则化。
  • 数据收集挑战包括标注者质量、偏差、成本以及AI标注的普及,近年来更多采用专家标注和模型蒸馏。
  • 算法方面,DPO作为PPO的简化替代方案,通过直接优化偏好对来实现对齐,效果接近PPO但更易实现。
  • 后训练需注意过优化、模型熵降低和校准问题,这些问题在推理模型(如o1)的发展中尤为关键。

课件与代码:https://cs336.stanford.edu/