去绑定

从零学大语言模型 L15：Mid/Post-Training | 斯坦福CS336 2026春季

斯坦福课程 2026-06-29

29次播放

2026-06-29

视频 AI 总结：该视频深入讲解了语言模型后训练（post-training）的核心技术，包括监督微调（SFT）和基于人类反馈的强化学习（RLHF）。视频指出，预训练模型（如GPT-3）的能力有限，需要通过后训练才能实现指令遵循、安全控制和工具使用等高级功能。SFT阶段强调高质量数据的重要性，而RLHF阶段则通过奖励模型和策略优化（如PPO、DPO）来对齐人类偏好。视频还讨论了数据收集的挑战、标注者偏差、模型过优化和模式崩溃等问题，并展望了未来推理模型的发展方向。

主要内容：

后训练是将基础模型（如GPT-3）转化为可用系统（如ChatGPT）的必要步骤，分为SFT和RLHF两个阶段。
SFT阶段依赖于高质量人工标注或模型生成的数据，数据量不宜过多，但质量至关重要，需避免引入幻觉和错误知识。
RLHF阶段通过人类反馈训练奖励模型，再使用强化学习（如PPO或DPO）优化策略，核心是平衡奖励最大化和KL正则化。
数据收集挑战包括标注者质量、偏差、成本以及AI标注的普及，近年来更多采用专家标注和模型蒸馏。
算法方面，DPO作为PPO的简化替代方案，通过直接优化偏好对来实现对齐，效果接近PPO但更易实现。
后训练需注意过优化、模型熵降低和校准问题，这些问题在推理模型（如o1）的发展中尤为关键。

课件与代码：https://cs336.stanford.edu/

标签： PoS 后训练监督微调 RLHF DPO PPO