从零学大语言模型 L16:后训练 - RLVR | 斯坦福CS336 2026春季

30次播放
2026-06-29

视频 AI 总结:该讲座深入讲解了基于可验证奖励的强化学习(RLVR)在语言模型后训练中的最新进展。核心内容围绕如何通过 RL 提升模型在数学和编码等可验证任务上的推理能力,比较了 PPO 与 GRPO 算法的优劣,并详细分析了 DeepSeek R1、Kimi K1.5 和 Qwen 3 等开源模型的技术报告与训练策略,强调了奖励设计、数据筛选和系统基础设施的重要性。 主要内容

  • PPO 算法虽强大但实现复杂,需处理价值函数、KL 惩罚等多重细节,容易不稳定。
  • GRPO 通过去除价值函数并使用组内 z-score 标准化优势,简化了 RL 训练流程,成为开源社区主流。
  • DeepSeek R1 展示了基于 GRPO 的纯结果监督训练即可达到接近 OpenAI O1 的性能,并具有简单可复现的配方。
  • Kimi K1.5 采用类似 DPO 的推导方法,强调数据难度筛选和 CoT 长度压缩,避免无限制增长。
  • Qwen 3 融合了思考模式与非思考模式,通过早期退出思考实现灵活推理预算,并展示了 agent 化 RLVR 训练中奖励防作弊的关键性。

课件与代码:https://cs336.stanford.edu/