AI Agent 循环工程(Loop):15个实用循环

mvanhorn 发布于 2026-06-21 阅读 76

本文深入探讨了AI代理循环工程(Loop Engineering),区分了/goal(直到条件满足)、/loop(定时重复)和/schedule(云例程)三种命令,并列举了来自X、TikTok、Reddit等平台的15个实用循环示例,如构建-测试-修复对、Boris的验证器循环、五小时仓库维护者等。

图像

本月初我写了 WTF Is a Loop? Peter Steinberger vs. Boris Cherny,该文获得了 360 万次阅读,讨论的是循环究竟是什么。这是续篇,回答了下一个问题:人们实际在运行哪些循环?我让 /last30days@slashlast30days)专门去做了这件事,在 X、TikTok、Reddit、YouTube 和 GitHub 上进行了八次搜索。下面列出了返回的十五个最佳结果,每一个都标注了来源,附有真实的互动数据(如果是爆款内容)和诚实的出处(如果来自精选目录),并以一条你可以今晚直接粘贴的命令形式重写(如果原本没有的话)。首先,有一个几乎人人都搞错的关键区别。

首先,三个命令(这是大家最容易出错的地方)

最清晰的表述来自 TikTok 上一位名为 inyourhandmedia 的创作者: 目标/goal 是持续工作直到取得成果。 循环/loop 是当我在这里时重复执行一个任务。 例程/schedule 是当我离开后持续工作。

用实际命令来表示:

/goal <条件> 一直运行直到一个可验证的条件为真,然后停止。每次回合后,一个独立的快速模型会检查你是否真的完成了。这是用来“修复直到测试通过”的命令,也是两个工具都共有的命令:Claude Code 在 v2.1.139 中发布了该功能(文档),Codex 在 CLI v0.128.0 中发布了带有设置、暂停、恢复和清除控制的自有版本(文档)。

/loop <间隔> <提示> 在你会话打开期间按定时器重复,例如 `/loop 5m check the deploy`。它用于监视某件事,实时操作(文档)。Codex 目前还没有 /loop 命令;其等效方案是 codex exec 包装在一个 shell 循环中,或者在 Codex 应用中设置分钟间隔的线程自动化。

/schedule <描述> 创建一个云例程,在你的笔记本电脑合上时运行,例如 `/schedule daily PR review at 9am`文档)。这是“在我睡觉时”运行的命令。Codex 的等效方案是 Codex 应用中的 自动化:独立、项目或线程自动化,按每日、每周或自定义 cron 计划执行,结果进入分流收件箱(目前本地支持,云端执行正在逐步推出)。

在讨论中反复出现的一个陷阱是:这两个工具中都没有 /routine 命令。在 Claude Code 中,计划器是 /schedule;在 Codex 中,它是应用中的“自动化”。动词用对了,下面的每个循环就能正常工作。下面有十一个直接来自 X、TikTok、Reddit 和 GitHub,附带了互动数据;最后四个我从一个值得一看的目录中提取,并已明确标注出处。

1. 构建-测试-修复配对(loop)

整个搜索中最常被演示的循环,来自创作者 raycfu,他的演示在 Instagram 上获得了 43,587 次观看和 1,040 条评论。两个智能体:一个构建者负责编写代码,一个检查者负责运行测试、类型检查和 lint,并准确报告出了什么问题。它们来回传递工作,直到一切干净。其核心卖点是它消除了痛点:一次性智能体会发布带有 bug 的代码。

/loop 构建计划中的下一项,然后运行测试、类型检查和 lint。将每个失败反馈作为下一条指令并修复它。当构建通过且检查者没有任何内容需要报告时停止。

2. Boris 的验证器循环(loop)

这是 Boris Cherny 本人描述的循环,也是对该模式最高互动量的描述(@bcherny,781 赞):在一个循环中运行 Claude Code 加上一个高级模型再加一个验证器,输入任务,并一边运行一边消除瓶颈。验证器是每个人都跳过的部分。没有它,你只是在信任智能体。

/loop 处理任务列表。每个任务之后,让一个独立的验证器模型对照规范和测试检查结果。只有通过时才继续。将验证器拒绝两次的内容上报。

3. 循环工程师启动器(框架)

观看量最高的实际搭建视频,来自 AI Jason(15,436 次观看,537 赞),他提供了一个免费的 循环工程师模板:一个代码库框架加上一个知识模板,你克隆后指向你的仓库运行,这样就不用从头开始搭建构建、观察、验证和停止的脚手架。如果你想今晚就运行一个循环又不想自己设计底层架构,这是最快的入门方式。

git clone https://github.com/JayZeeDesign/loop-engineer-template

4. 五分钟仓库维护者(loop)

Peter Steinberger,在过去30天内合并了其仓库中的859个拉取请求,接受率为95%,他在一个紧凑的定时器上运行这个循环:在他工作时,每五分钟智能体执行一次小的、经过验证的维护任务。清理什么由智能体自行决定,而不是硬编码脚本。这个决策就是全部要点。

/loop 5m 做一个小的经过验证的仓库改进:修复一个不稳定的测试、更新过时的注释、补充缺失的类型。一次更改,一次提交,测试通过。绝不触碰任何有风险的内容。

5. 计划-生成-验证-修复循环(goal)

一位名为 qbuilder 的创作者(TikTok 上 4,560 次观看,125 赞)运行了一个限定版本,彻底解决了失控问题:计划、生成、验证、修复、重复,所有内容保存到文件,并设置五次迭代的硬上限。你只需要阅读最终版本。这个上限使得离开它变得安全。

/goal 计划任务,实现它,对照测试验证,修复失败的部分。每次迭代将状态保存到文件。最多5次迭代。在第一次通过或达到上限时停止,并告诉我结果。

6. roborev,提交后审查器

(已发布工具) roborev 是一个免费开源的代码审查工具(Go 二进制文件,从 roborev.io 安装),在研究过程中通过 Dan Kornas 发现。它安装一个 git Hook,使得每次提交都会触发后台审查,然后在上下文仍然活跃时将审查结果反馈到智能体修复循环中。发布推文只有 20 个赞,比较冷清,但仓库才是真正的信号:1,410 颗星,在我写这篇文章的当天还有新提交。它是本文核心论点(循环中需要一个验证器)的可安装版本,并且可以接入 Claude Code、Codex 和 Gemini CLI。

roborev init    # 添加一个提交后Hook:每次提交触发一次审查
roborev fix     # 智能体循环,修复发现的缺陷

7. 目标元技能(goal)

本月爆款技能,由 evgenii.arsentev(32 赞,950 次观看)发现,几日内获得 600 多颗星:这个技能的唯一任务是将模糊的请求转化为严谨的目标,明确指定结果、如何验证、不能触碰什么以及何时停止。正如他所说,你的智能体并不笨,只是你的指令太模糊。

/goal 在做任何事之前,将我的请求重写为一个精确的目标:确切的目标状态、你将如何验证、你不能触碰什么以及停止条件。确认该目标,然后针对它执行。

8. 每天 15,000 封邮件的循环(schedule)

一位构建者在 r/LangChain 上发布了用于处理每天 15,000 封酒店客人邮件的完整邮件智能体架构:它循环检查收件箱、分类并起草回复,仅将需要人工处理的内容升级。这是一个少见的 Reddit 帖子,提供了完整的生产循环,而不仅仅是一个演示。

/schedule 每15分钟,拉取新的客人邮件,分类,并为常规邮件起草回复。将敏感内容加入我的队列,记录每个决策。绝不自动发送退款或预订变更。

9. 防空转循环(loop)

Reddit 上设计最好的循环,一个发布在 r/claudeskills 上的 Claude Code 技能。它运行自主构建、审计和验证的循环,直到一个机器可验证的合约通过,并带有明确的防空转停止机制:无进展检测、重试上限、摇摆检测和预算。它的存在是因为,正如作者所说,大多数智能体循环从不询问自己是否真的在取得进展,所以它们会重试相同的错误方法,或者悄悄修改测试使其通过。

/loop 朝着目标构建,然后审计并对照机器可验证的合约验证。如果无进展、重复使用某方法、在方法之间摇摆或达到预算,则停止。仅在合约通过时完成。

10. 写循环而不是代码的例程(schedule)

这一切的起点,来自构建 Claude Code 的人:他不再写代码,而是写循环,而这些循环在他睡觉时写代码。分享最多版本(@0xMovez,984 赞)给出了一个数字:他 30% 的代码现在完全由循环编写。其形式是一个定时例程,监控你的 PR 并在夜间自动处理可修复的 PR。

/schedule 每晚,监控我开放的 PR。自动修复构建失败,在一个新的工作树中回答审查评论,并变基过时的 PR。将任何模糊内容留给我处理。状态保存在 git 中,因此崩溃不会丢失任何东西。

11. 人工参与的审批队列(loop)

来自无代码人群的最实用模式,出自 r/n8n 的一个帖子:工作流运行,然后暂停并向你发送带有“批准”、“修改”或“跳过”按钮的消息,将人工审查视为一个带有提醒和截止日期的独立队列。循环形状相同,但停止条件是你的批准而不是测试通过。

/loop 运行任务,然后暂停并通过 Telegram 向我发送批准/修改/跳过选项。批准则继续。修改则根据我的说明重做。跳过则处理下一项。

以及四个值得从目录中提取的循环

其余真正可复制粘贴的循环存在于 Matthew BermanForward Future 循环库中,这是一个精选目录,其信号是审核本身而非点赞数。以下四个仅凭实用性就赢得了位置。

12. 生产错误扫荡(goal)

Berman 的最高实用性目标。它读取你的生产日志,将真正的可操作错误与噪音分开,用测试修复可操作错误,并打开一个 PR。其价值在于分流;告诉它“可操作”是什么意思,否则它会追逐幽灵。

/goal 审查过去24小时的生产错误。对于每个可操作且可复现的错误,编写一个带有回归测试的修复,并打开一个 PR。忽略瞬态错误和第三方噪音。当可操作列表清空时完成。

13. 质量连续通过循环(goal)

又是 Berman,而且它尊重“它能工作”是多么不可靠。它不在第一次绿色运行时停止;它测试真实场景,只有在连续通过多次后才宣布胜利。一次绿色运行是运气。连续通过才是可靠性。

/goal 对真实场景运行完整的产品测试套件。修复所有失败,然后再次运行。新的失败会重置计数。仅在连续10次无差错通过后完成。

14. 对抗性审查强力工具

Lukas Kucinski 的 Clodex 循环让 Codex 在合并前审查 Claude 的拉取请求,因此需要两个不同的模型系列达成一致才能合入代码。直接粘贴使用。

/clodex [任务] think hard --max-iter 5 --threshold medium

--max-iter 5--threshold medium 是整个要点。它与自己争论最多五次,只传递达到标准的工作。

15. 完成合约强力工具

3goblack 的循环(@Dis_Trackted)修复了最常见的失败:智能体说“完成”但实际上并未完成。在任何工作开始之前,它写出一个关于“完成”意味着什么以及每个需求需要什么证据的合约,然后在没有证据的情况下拒绝声称成功。

$goal-planner-codex [任务]

炒作忽略的部分:循环就是一个带验证器的烧钱坑

在每个平台上,同样的两个警告反复出现,而且用社区的话来说比我说的有趣。

第一个是成本。浪漫版的循环是“一千个智能体一夜之间建起我的公司。”生产版是一张账单。Uber 在四个月内烧完年度 AI 预算后,将其工程师的每个工具每月上限设定为 1500 美元。一位 Reddit 用户 用一个命令一夜之间烧掉了大约 6000 美元,该帖子获得了 1,273 个赞。对整个运动最有趣的总结是一个写成代码的 YouTube 评论。

while (you have tokens): Burn them in a loop! That's what it is
- TrMarwane, YouTube, 196 赞,在 [一个循环工程解析视频](https://www.youtube.com/watch?v=dMrm2jAyrKM) 下

因此每个目标都有一个预算,每个循环都有一个上限。目标条件可以带有“或在 N 次后停止”。例程在带有每日上限的计划上运行。在你走开之前设置上限,而不是在收到邮件之后。

第二个是验证,这是整个游戏的关键。一个无法区分好坏输出的循环并不能节省你的工作。它只是更快地产生错误答案。

一个不能真正区分好坏输出的循环只会更快地自动化错误。编写循环很容易。循环内部的验证器才是难的部分。
- [@ahmetbilicanxyz](https://x.com/ahmetbilicanxyz/status/2068308532043059202)

这就是为什么 /goal 使用一个独立的模型作为裁判,而不是让工作者给自己打分,也是为什么上面最强的循环(Boris 的验证器、构建-测试-修复配对、Clodex)都在循环内部放置了第二双独立的眼睛。一个给自己打分的智能体会删除失败的测试并宣布完成。怀疑论者要求保持诚实是正确的。

又来了。我们有新的 AI 趋势:循环工程。你还在写提示词?你已经落伍了。
- Maximilian Schwarzmuller, YouTube, 2,036 赞,在 [他的循环工程视频](https://www.youtube.com/watch?v=J2ZE6XGCYb0) 下

他说对了一半。调度层其实就只是 cron。但 cron 从未拥有过一个能够读取状态、采取行动、检查是否成功并决定是否继续的决策者。这个决策才是全新的事物。其他一切只是管道。

如何今晚开始

你不需要全部十五个。研究不断收敛到三个动作,每个类型一个。将构建-测试-修复配对作为 /loop 运行,这样你在观察时就有可衡量的改进。在你工作时将五分钟维护者作为 /loop 运行。将写循环的 PR 例程作为 /schedule 在夜间运行,这样你醒来时工作已完成。给每个设置预算和验证器。到明天早上,你就有了一个可运行的循环栈。

然后去浏览剩下的。Matthew Berman 的 Forward Future 循环库 收录了可复制粘贴的循环,注明了作者,并且这些循环存在于一个 你可以安装的开放仓库 中。但这篇文章的核心不是他的目录。而是人们实际在运行和发布的内容,从一个月的信息噪音中提取出来,这样你就不用自己去翻了。

每个人都在谈论的转变是真实的,而且比讨论的内容更简单。停止成为循环中的那个东西。编写目标、循环或例程,给它一个预算和一种自我检查的方式,然后去决定接下来构建什么。正如一位疲惫的实践者在被问到智能体工作时你应该做什么时所说:

去散步。给妈妈打电话。做一顿健康的饭。照顾好自己。
- justinkthornton, Reddit, 在
[r/codex](https://www.reddit.com/r/codex/comments/1u14eja/what_are_you_doing_during_the_goal_mode_in_codex/)
  • 原文链接: x.com/mvanhorn/status/20...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~

相关文章

0 条评论