文章详细分析了 Moonshot AI、Cursor 和 Chroma 三家公司利用强化学习(RL)训练智能体(Agent)模型的技术路径。重点介绍了 Kimi K2.5 的并行智能体编排、Cursor 的实时生产环境 RL 与代码自摘要技术,以及 Chroma 的自编辑上下文检索模型,展示了提升智能体性能和效率的前沿方案。

本文深入分析了 Moonshot AI 的 Kimi K2.5 论文、Cursor 的 Composer 2 报告与博客文章,以及 Chroma 的 Context-1 报告。
这三份报告分别介绍了各自独特的创新:
- Kimi K2.5 训练了一个 Agent Swarm,模型通过 RL 学会将任务分解为并行的 Sub-agent。
- Cursor Composer 2 利用 Self-summarization 处理长代码会话,并利用生产环境流量进行实时 RL。
- Chroma Context-1 教会模型 Self-editing context:主动修剪检索到的文档,为进一步搜索腾出空间。
尽管侧重点不同,三者在 RL 方法论上具有高度一致性:
- 基于强力基座模型:均非从零开始训练。Moonshot 扩展了 Kimi K2;Cursor 基于 Kimi K2.5;Chroma 基于 gpt-oss-20B。
- 在生产环境中训练:团队在与生产环境完全一致的工具、提示词和执行环境中运行 RL Rollouts。
- 基于结果的奖励 (Outcome-based rewards):均使用可验证的结果信号,并针对开放式任务使用生成式奖励模型 (GRMs)。
- 异步大规模展开:每个系统在每个训练步骤中生成并行轨迹。由于 Agent 展开成本高昂,三者都投入了大量基础设施以实现规模化运行。
Kimi K2.5:Agent Swarm 与并行编排
Kimi K2.5 是 Moonshot AI 的多模态模型,采用 1T 参数(32B 激活)的 MoE 架构。其核心特征是 Agent Swarm 框架,模型通过 RL 动态地将任务分解为并行子任务并分发给 Sub-agent。这种并行化策略是学习得来的,而非人工硬编码。
PARL:并行 Agent 强化学习
传统的 Agent 系统通常顺序执行:思考 → 调用工具 → 观察 → 思考。Agent Swarm 通过训练模型生成并行 Sub-agent 打破了这一模式。其架构包含两个角色:
- Orchestrator (可训练):决定何时创建 Sub-agent、分配什么任务以及如何汇总结果。配备有
create_subagent 和 assign_task 工具。
- Sub-agent (冻结):独立执行分配的任务。其执行轨迹不计入优化目标。
这种解耦解决了“信用分配”问题。通过冻结 Sub-agent,只有 Orchestrator 的协调逻辑会被优化。
关键步骤与计算成本
Kimi 引入了“关键步骤” (Critical Steps) 来衡量并行环境下的计算成本。它不计算所有 Agent 的总步数,而是测量最长的执行链。这激励 Orchestrator 平衡 Sub-agent 的工作量(缩短最长分支),而不仅仅是最大化并发量。
PARL 奖励设计
训练可靠的并行 Orchestrator 需要精细的奖励设计,包含三个组件:
- 性能奖励 ($r_{perf}$): 任务是否成功,这是主要信号。
- 并行奖励 ($r_{parallel}$): 激励创建 Sub-agent,防止模型陷入只执行单 Agent 任务的局部最优。
- 完成奖励 ($r_{finish}$): 奖励完成的子任务,防止模型为了刷并行奖励而创建无意义的 Sub-agent。
推理表现
在推理时,模型会根据任务复杂度决定是否并行。在复杂的多源研究任务中,它会启动多个并行 Agent。Agent Swarm 将推理延迟降低了高达 4.5 倍,同时提高了准确性。在 BrowseComp 测试中,其表现超过了 GPT-5.2 Pro。
Cursor Composer 2:针对编程 Agent 的 RL
Composer 2 是 Cursor 自研的用于智能软件工程的模型,能够阅读、编辑文件、运行 shell 命令、搜索代码库和浏览网页。
贴近生产的训练环境
Composer 2 在与用户交互完全相同的 Cursor 环境中训练。他们维护了一个生产后端的影子部署,确保工具行为(如语义搜索)与实际一致。
此外,他们构建了 CursorBench,这是一个从实际编码会话中提取的内部评估套件。相比 SWE-bench,CursorBench 的任务更复杂、提示词更模糊,更符合真实开发场景。
RL 基础设施的四个组件
- 训练:基于 Ray 和 PyTorch 的全异步堆栈。
- 环境:每个展开运行在专用的 Firecracker VM 中,支持文件系统快照和分叉。
- 推理:与 Fireworks AI 合作,支持权重在展开过程中实时更新。
- 评估:使用生产后端副本进行评估。
自我总结与实时 RL
- 长时程处理:为了在有限的 Token 预算内处理长任务,Composer 2 学习如何进行 Self-summarization。良好的总结会被强化,而丢失关键信息的总结会被降权。
- 实时 RL:Cursor 直接从生产流量中提取训练信号。他们收集用户交互数据,将其转化为奖励信号,并在几小时内产出更新的检查点。这种快速循环确保了数据的高度 On-policy 性。
Chroma Context-1:自编辑搜索 Agent
Context-1 是一个 20B 参数的搜索模型,专门负责寻找文档。其核心创新是 Self-editing context:模型学习有选择地丢弃不再相关的文档,为后续搜索腾出空间。
合成数据管道
Chroma 构建了跨越 Web、金融、法律和邮件四个领域的合成生成管道。每个任务都包含:
- 收集支持事实的文档。
- 生成模糊线索和问题。
- 通过提取原文引用进行验证(准确率 >80%)。
- 加入干扰文档。
Agent 工具与修剪逻辑
Context-1 拥有搜索、正则搜索、阅读和修剪 (prune_chunks) 四种工具。系统强制执行固定的 Token 预算。当接近预算上限时,系统会提示修剪;超过上限时,除了修剪工具外,其他工具均被锁定。
训练与 CISPO 算法
- SFT 预热:使用 Kimi K2.5 生成轨迹并根据召回质量进行过滤。
- RL 训练:采用 CISPO(一种 GRPO 变体)。奖励设计非常关键:
- 结果奖励:F-beta 分数(召回率权重远高于精确率)。
- 过程奖励:即使文档后来被修剪,只要在搜索过程中遇到过相关文档,也会给予信用。
- 惩罚项:惩罚重复修剪和过多的搜索轮次。
核心总结与趋势
- 训练即生产:所有团队都投入巨资使训练环境与生产环境完全匹配,以最小化性能差距。
- Context 管理是核心挑战:Agent 上下文会随时间膨胀。Cursor 使用总结,Kimi 使用并行分片,Chroma 使用主动修剪。
- 奖励设计是迭代的:所有团队都经历了发现并修复“奖励作弊” (Reward Hacking) 的过程。
- 公共基准测试已不足够:通用榜单无法反映垂直领域的真实效用。团队纷纷构建基于真实用户会话或复杂合成数据的内部基准。
- 专用小模型可抗衡巨型模型:通过特定领域的 RL 训练,较小的模型(如 20B 或 32B)在特定任务上的表现可以媲美甚至超越顶尖的通用大模型,且成本更低、速度更快。