Kimi、Cursor与Chroma的强化学习智能体训练实践

文章详细分析了 Moonshot AI、Cursor 和 Chroma 三家公司利用强化学习(RL)训练智能体(Agent)模型的技术路径。重点介绍了 Kimi K2.5 的并行智能体编排、Cursor 的实时生产环境 RL 与代码自摘要技术,以及 Chroma 的自编辑上下文检索模型,展示了提升智能体性能和效率的前沿方案。

Image

本文深入分析了 Moonshot AI 的 Kimi K2.5 论文、Cursor 的 Composer 2 报告博客文章,以及 Chroma 的 Context-1 报告

这三份报告分别介绍了各自独特的创新:

  • Kimi K2.5 训练了一个 Agent Swarm,模型通过 RL 学会将任务分解为并行的 Sub-agent
  • Cursor Composer 2 利用 Self-summarization 处理长代码会话,并利用生产环境流量进行实时 RL
  • Chroma Context-1 教会模型 Self-editing context:主动修剪检索到的文档,为进一步搜索腾出空间。

尽管侧重点不同,三者在 RL 方法论上具有高度一致性:

  1. 基于强力基座模型:均非从零开始训练。Moonshot 扩展了 Kimi K2;Cursor 基于 Kimi K2.5;Chroma 基于 gpt-oss-20B。
  2. 在生产环境中训练:团队在与生产环境完全一致的工具、提示词和执行环境中运行 RL Rollouts
  3. 基于结果的奖励 (Outcome-based rewards):均使用可验证的结果信号,并针对开放式任务使用生成式奖励模型 (GRMs)。
  4. 异步大规模展开:每个系统在每个训练步骤中生成并行轨迹。由于 Agent 展开成本高昂,三者都投入了大量基础设施以实现规模化运行。

Kimi K2.5:Agent Swarm 与并行编排

Kimi K2.5 是 Moonshot AI 的多模态模型,采用 1T 参数(32B 激活)的 MoE 架构。其核心特征是 Agent Swarm 框架,模型通过 RL 动态地将任务分解为并行子任务并分发给 Sub-agent。这种并行化策略是学习得来的,而非人工硬编码。

PARL:并行 Agent 强化学习

传统的 Agent 系统通常顺序执行:思考 → 调用工具 → 观察 → 思考。Agent Swarm 通过训练模型生成并行 Sub-agent 打破了这一模式。其架构包含两个角色:

  • Orchestrator (可训练):决定何时创建 Sub-agent、分配什么任务以及如何汇总结果。配备有 create_subagentassign_task 工具。
  • Sub-agent (冻结):独立执行分配的任务。其执行轨迹不计入优化目标。

这种解耦解决了“信用分配”问题。通过冻结 Sub-agent,只有 Orchestrator 的协调逻辑会被优化。

关键步骤与计算成本

Kimi 引入了“关键步骤” (Critical Steps) 来衡量并行环境下的计算成本。它不计算所有 Agent 的总步数,而是测量最长的执行链。这激励 Orchestrator 平衡 Sub-agent 的工作量(缩短最长分支),而不仅仅是最大化并发量。

PARL 奖励设计

训练可靠的并行 Orchestrator 需要精细的奖励设计,包含三个组件:

  1. 性能奖励 ($r_{perf}$): 任务是否成功,这是主要信号。
  2. 并行奖励 ($r_{parallel}$): 激励创建 Sub-agent,防止模型陷入只执行单 Agent 任务的局部最优。
  3. 完成奖励 ($r_{finish}$): 奖励完成的子任务,防止模型为了刷并行奖励而创建无意义的 Sub-agent

推理表现

在推理时,模型会根据任务复杂度决定是否并行。在复杂的多源研究任务中,它会启动多个并行 AgentAgent Swarm 将推理延迟降低了高达 4.5 倍,同时提高了准确性。在 BrowseComp 测试中,其表现超过了 GPT-5.2 Pro。


Cursor Composer 2:针对编程 Agent 的 RL

Composer 2 是 Cursor 自研的用于智能软件工程的模型,能够阅读、编辑文件、运行 shell 命令、搜索代码库和浏览网页。

贴近生产的训练环境

Composer 2 在与用户交互完全相同的 Cursor 环境中训练。他们维护了一个生产后端的影子部署,确保工具行为(如语义搜索)与实际一致。

此外,他们构建了 CursorBench,这是一个从实际编码会话中提取的内部评估套件。相比 SWE-bench,CursorBench 的任务更复杂、提示词更模糊,更符合真实开发场景。

RL 基础设施的四个组件

  1. 训练:基于 Ray 和 PyTorch 的全异步堆栈。
  2. 环境:每个展开运行在专用的 Firecracker VM 中,支持文件系统快照和分叉。
  3. 推理:与 Fireworks AI 合作,支持权重在展开过程中实时更新。
  4. 评估:使用生产后端副本进行评估。

自我总结与实时 RL

  • 长时程处理:为了在有限的 Token 预算内处理长任务,Composer 2 学习如何进行 Self-summarization。良好的总结会被强化,而丢失关键信息的总结会被降权。
  • 实时 RL:Cursor 直接从生产流量中提取训练信号。他们收集用户交互数据,将其转化为奖励信号,并在几小时内产出更新的检查点。这种快速循环确保了数据的高度 On-policy 性。

Chroma Context-1:自编辑搜索 Agent

Context-1 是一个 20B 参数的搜索模型,专门负责寻找文档。其核心创新是 Self-editing context:模型学习有选择地丢弃不再相关的文档,为后续搜索腾出空间。

合成数据管道

Chroma 构建了跨越 Web、金融、法律和邮件四个领域的合成生成管道。每个任务都包含:

  1. 收集支持事实的文档。
  2. 生成模糊线索和问题。
  3. 通过提取原文引用进行验证(准确率 >80%)。
  4. 加入干扰文档。

Agent 工具与修剪逻辑

Context-1 拥有搜索、正则搜索、阅读和修剪 (prune_chunks) 四种工具。系统强制执行固定的 Token 预算。当接近预算上限时,系统会提示修剪;超过上限时,除了修剪工具外,其他工具均被锁定。

训练与 CISPO 算法

  • SFT 预热:使用 Kimi K2.5 生成轨迹并根据召回质量进行过滤。
  • RL 训练:采用 CISPO(一种 GRPO 变体)。奖励设计非常关键:
    • 结果奖励:F-beta 分数(召回率权重远高于精确率)。
    • 过程奖励:即使文档后来被修剪,只要在搜索过程中遇到过相关文档,也会给予信用。
    • 惩罚项:惩罚重复修剪和过多的搜索轮次。

核心总结与趋势

  1. 训练即生产:所有团队都投入巨资使训练环境与生产环境完全匹配,以最小化性能差距。
  2. Context 管理是核心挑战Agent 上下文会随时间膨胀。Cursor 使用总结,Kimi 使用并行分片,Chroma 使用主动修剪。
  3. 奖励设计是迭代的:所有团队都经历了发现并修复“奖励作弊” (Reward Hacking) 的过程。
  4. 公共基准测试已不足够:通用榜单无法反映垂直领域的真实效用。团队纷纷构建基于真实用户会话或复杂合成数据的内部基准。
  5. 专用小模型可抗衡巨型模型:通过特定领域的 RL 训练,较小的模型(如 20B 或 32B)在特定任务上的表现可以媲美甚至超越顶尖的通用大模型,且成本更低、速度更快。
  • 原文链接: x.com/_philschmid/status...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
_philschmid
_philschmid
江湖只有他的大名,没有他的介绍。