监督微调

微信扫码分享
从零学大语言模型 L15:Mid/Post-Training | 斯坦福CS336  2026春季

从零学大语言模型 L15:Mid/Post-Training | 斯坦福CS336 2026春季

**视频 AI 总结**:该视频深入讲解了语言模型后训练(post-training)的核心技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。视频指出,预训练模型(如GPT-3)的能力有限,需要通过后训练才能实现指令遵循、安全控制和工具使用等高级功能。SFT阶段强调高质量数据的重要性,而RLHF阶段则通过奖励模型和策略优化(如PPO、DPO)来对齐人类偏好。视频还讨论了数据收集的挑战、标注者偏差、模型过优化和模式崩溃等问题,并展望了未来推理模型的发展方向。 **主要内容**: - 后训练是将基础模型(如GPT-3)转化为可用系统(如ChatGPT)的必要步骤,分为SFT和RLHF两个阶段。 - SFT阶段依赖于高质量人工标注或模型生成的数据,数据量不宜过多,但质量至关重要,需避免引入幻觉和错误知识。 - RLHF阶段通过人类反馈训练奖励模型,再使用强化学习(如PPO或DPO)优化策略,核心是平衡奖励最大化和KL正则化。 - 数据收集挑战包括标注者质量、偏差、成本以及AI标注的普及,近年来更多采用专家标注和模型蒸馏。 - 算法方面,DPO作为PPO的简化替代方案,通过直接优化偏好对来实现对齐,效果接近PPO但更易实现。 - 后训练需注意过优化、模型熵降低和校准问题,这些问题在推理模型(如o1)的发展中尤为关键。 课件与代码:https://cs336.stanford.edu/

29 0 0 3 天前