Loop工程:构建AI代理的核心艺术

sydneyrunkle 发布于 2026-06-17 阅读 51

本文阐述了构建AI代理的核心在于围绕LLM设计多层循环(loop),而非仅依赖模型本身。作者介绍了四种循环:1)基础代理循环,模型调用工具直至任务完成;2)验证循环,通过评分者(grader)检查输出质量并反馈重试;3)事件驱动循环,通过事件触发代理在后台持续运行;4)爬山循环,利用生产追踪数据自动优化代理配置。每个循环都有对应的LangChain原语实现,并强调人类监督在关键环节的价值。文章指出,通过堆叠这些循环,能将代理从简单的任务自动化提升为持续自我改进的系统,从而构建难以复制的竞争优势。

图像

Agent 之所以有用,是因为它们能通过在现实世界中采取行动来帮助我们自动化工作。但要确保 Agent 可靠地完成有价值的工作,不仅仅需要一个好模型:还需要一个精心设计的、适合特定任务集的管控系统(Harness)。

核心的 Agent 算法很简单:给 LLM 提供上下文,然后让它循环调用工具直到完成任务。这是最基本的循环。但这远非驱动 Agent 的唯一循环。@swyx 最近写了一篇关于**“循环工艺(loopcraft):堆叠循环的艺术”**的精彩文章,其核心思想是:你可以堆叠并扩展多个循环,从而构建出更高效的 Agent。

以下是我们对这个堆叠体系的理解,以及如何使用 LangChain 原语来实现每一层。

循环 1:Agent

本质上,Agent 不过是一个模型在循环中调用工具,直到任务完成。

图像

这就是 LangChain 的 create_agent 所提供的功能。选择任意模型,接入工具,你就拥有了一个可工作的 Agent 循环。工具赋予了 Agent 在现实世界中采取行动的能力。

以我们内部的文档 Agent 为例(本文余下部分将以它作为激励案例)。在这个第一层循环中,它接收文档改进的请求,模型进行规划并草拟修改,然后利用工具克隆仓库、读取文件、编写文档、打开 Pull Request 等。

图像

Layer2:验证循环

Agent 循环能完成工作,但并非每次都能在第一次尝试就产生正确或一致的结果。当结果一致性至关重要时,通常需要将其包装在一个验证循环中,该循环负责检查输出,并在结果不合格时向模型发送反馈。

图像

验证循环增加了一个评分器(Grader):它根据评估标准检查 Agent 的输出,如果失败,则将结果连同反馈一起发回。评分器既可以是确定性的,也可以是智能体式的(其中 LLM 作为评判者是一个经典例子)。RubricMiddleware 处理这种模式,或者你也可以在 create_agent 上通过 after_agent hook 来实现。

对于我们的文档编写示例,评分器会在每次尝试后运行测试,检查所有链接是否可解析、所有 CI 检查是否通过、以及差异范围是否仅限于实际请求的内容。无需人工审核即可捕捉这类错误。

图像

但需要权衡的是:添加验证会增加每次运行的延迟和成本。当质量比速度更重要时(这是大多数生产用例的情况),这样做是值得的。

第 3 层:事件驱动循环

Agent 开发中最重要的部分之一是集成层:将你的 Agent 连接到你的生态系统,使其能够在后台运行。

事件驱动循环将你的 Agent 连接到你的生态系统。一个事件被触发——新文档到达、定时任务触发、Webhook 到来——然后 Agent 运行。Agent 不再是需要手动调用的东西;它是一个在更大系统中持续运行的组件。

图像 LangSmith Deployment 支持触发器基础设施,包括对 Cron 定时任务和 Webhook 的支持。其中一个流行的 Cron 应用实例是 openclaw 中的“心跳”功能,它将你的 Agent 转变为一个始终在线、主动的助手。

我们的文档 Agent 由 Fleet(我们的无代码 Agent 构建器)驱动。Fleet 的 channelsschedules 处理事件驱动和 Cron 类型的触发器。我们使用一个通道,每当我们的 #docs-plz Slack 频道中发送消息时,就会触发文档 Agent。

图像

第 4 层:爬山循环

前三个循环实现了自动化工作。而第四个循环(可以说是最重要的)则实现了改进的自动化!

图像

每次 Agent 运行都会产生一条轨迹(Trace):它记录了模型做了什么、调用了哪些工具、评分器反馈等信息。这些轨迹包含了关于哪些地方有效、哪些地方无效的高价值信号。爬山循环对这些轨迹运行一个分析 Agent,并利用分析结果重写管控系统(Harness)的配置,实现改进。这可能包括调整 Prompt/工具,或调整评分器。

在 LangSmith 中,你可以使用 Engine(我们的轨迹分析 Agent)来实现这第四层循环。

回到文档 Agent 的类比,我们在文档 Agent 的轨迹上运行 Engine 以检测任何问题。当多条轨迹表明存在潜在问题时,会创建一个 Issue,要求修改有问题的 Prompt 或工具。

图像

这里的关键动作是,返回箭头不仅仅简单地循环回顶部——它深入内部并直接更新 Agent 循环。外层循环的每一轮迭代都使得内层循环更加高效。

展望未来:Prompt 和工具配置是最容易改进的,但它们并非唯一选项。对于运行开源权重模型的团队而言,爬山循环可以馈入强化学习微调,利用轨迹或评估结果作为训练信号来改进模型本身。像记忆和检索技能这样的辅助上下文也可以用同样的方式改进。循环是一种模式;它优化什么,由你决定。

人类监督与专业知识

自动化并不意味着将人类从循环中移除。在每个层面上,都有自然的人类监督可以增加价值的节点。自动化评分器可以检查链接是否可解析;但需要人类才能注意到文档的定位对受众来说是不合适的。那种源于背景、经验和品味的判断力,正是人类审查发挥价值的地方。

一些专业知识应该被编码到 Prompt/工具本身中,但对于敏感操作(例如金融交易、数据库操作等),实时的人工审查是必不可少的。LangChain 使得在每个循环中接入这些接触点变得简单直接:

  • 在 Agent 循环中,在敏感操作/工具调用之前要求人工输入
  • 在验证循环中,对于敏感工作流,人类可以充当评分器
  • 在应用循环中,人类可以在输出返回给最终用户之前进行批准
  • 在爬山循环中,管控系统(Harness)的改进可以在部署前经过人工审核

所有 LangChain 的开源框架都将“人在回路中”作为第一类原语提供支持。

总结

如果你更喜欢表格视图,以下是这四个循环的堆叠方式:

循环 功能 影响 LangChain 原语
1: Agent 循环 (模型 + 工具) 模型反复调用工具直到任务完成 自动化工作 create_agent, 任何 LangChain 支持的模型
2: 验证循环 (Agent + 评分器) Agent 运行,输出根据评估标准评分,若失败则根据反馈重试 确保质量 RubricMiddleware
3: 事件循环 (验证 + 系统) 事件触发 Agent 运行,进而更新真实系统 规模化工作 LangSmith Deployment / Fleet channels
4: 爬山循环 (系统 + 引擎) 生产轨迹馈入分析 Agent,改进管控系统(Harness)配置 持续改进 LangSmith Engine

这就是循环工程——或者像 @swyx 所说的循环工艺(loopcraft)——在实际中的真实模样。AI 领域的领导者如 SteipeteBorisAndrej 都得出了相同的结论:Agent 的潜力在于你围绕它们构建的循环。

我们已经对循环 1 和 2 思考了一阵子。但重点应该转向循环 3 和 4,因为通过将 Agent 嵌入你的生态系统,并使其根据你的标准持续改进,价值会不断复利增长。

Satya 阐述了组织层面的利害关系:那些尽早构建学习循环的公司——让人类判断力与 Token 资本共同复利——将建立起难以复制的优势。

致谢

感谢 @Vtrivedy10@masondrxy@hwchase17@huntlovell 的认真审阅。

参考

deepagents quickstart, create_agent docs, rubric middleware, cron jobs, webhooks, langsmith engine, fleet channels

  • 原文链接: x.com/sydneyrunkle/statu...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~

相关文章

0 条评论