去绑定

从零学大语言模型 L16：后训练 - RLVR | 斯坦福CS336 2026春季

斯坦福课程 2026-06-29

30次播放

2026-06-29

视频 AI 总结：该讲座深入讲解了基于可验证奖励的强化学习（RLVR）在语言模型后训练中的最新进展。核心内容围绕如何通过 RL 提升模型在数学和编码等可验证任务上的推理能力，比较了 PPO 与 GRPO 算法的优劣，并详细分析了 DeepSeek R1、Kimi K1.5 和 Qwen 3 等开源模型的技术报告与训练策略，强调了奖励设计、数据筛选和系统基础设施的重要性。 主要内容：

PPO 算法虽强大但实现复杂，需处理价值函数、KL 惩罚等多重细节，容易不稳定。
GRPO 通过去除价值函数并使用组内 z-score 标准化优势，简化了 RL 训练流程，成为开源社区主流。
DeepSeek R1 展示了基于 GRPO 的纯结果监督训练即可达到接近 OpenAI O1 的性能，并具有简单可复现的配方。
Kimi K1.5 采用类似 DPO 的推导方法，强调数据难度筛选和 CoT 长度压缩，避免无限制增长。
Qwen 3 融合了思考模式与非思考模式，通过早期退出思考实现灵活推理预算，并展示了 agent 化 RLVR 训练中奖励防作弊的关键性。

课件与代码：https://cs336.stanford.edu/

标签：强化学习 PPO GRPO DeepSeek R1 Kimi K1.5 Qwen 3