本文介绍了一种受Andrej Karpathy启发,用于自动提升Claude AI技能的“自研究”方法。该方法通过AI代理迭代修改提示词,并根据用户定义的检查表进行测试和优化,从而显著提高AI技能的性能,减少人工干预。

你的 Claude 技能可能在 30% 的时间里都失败了,而你甚至没有注意到。
我创建了一种方法,可以自动改进任何技能,在这篇文章中,我将向你展示如何亲自运行它。
你启动它后,Agent 会反复测试和完善技能,无需你手动干预。
我的着陆页文案技能从通过质量检查的 56% 提高到 92%,完全没有人工干预。
Agent 只是不断地自行测试和优化提示。
以下是该方法和我构建的精确技能,你可以用它来处理自己的内容:
Andrej Karpathy(OpenAI 联合创始人,特斯拉前 AI 负责人,"vibe coding" 一词的创造者)发布了一种名为“自动研究”(autoresearch)的方法。
其理念很简单:与其你手动改进某些东西,不如让 AI 代理在一个循环中为你完成。

它会尝试一个小的改动,检查结果是否变好。如果变好就保留,如果变差就放弃。
然后它会一遍又一遍地重复这个过程。
他将此方法用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。
包括你在 Claude 中构建的技能。
我采用了他的方法,并将其转化为一个在 Claude Code 和 Cowork 中都能运行的技能。我只需在我的设置中对任何其他技能运行它。
我说“对我的 [技能名称] 技能运行自动研究”,它就会处理整个过程。
你可以这样理解:
你有一个食谱,十次中有七次做得很棒。另外三次,总有些地方不对劲。也许酱汁平淡无味,也许调味不对。
你没有从头重写整个食谱,而是改变一种配料。然后用这种改变烹饪十次。
然后你改变下一项。再烹饪十次。变好还是变差?保留还是恢复。
经过 50 轮这样的操作,你的食谱十次中有 9.5 次都能成功。
这正是自动研究对你的技能所做的事情。
你唯一需要提供的是评分标准。
你给 Agent 一个简单的清单,说明“好”是什么样子。这是你在这个过程中唯一的任务。
你通过一个简单的“是/否”问题清单来完成。
每个问题都检查输出的一个特定方面。通过或失败。仅此而已。
Agent 使用这个清单来给每个输出打分,这些分数会告诉它所做的改变是帮助还是损害了结果。
把它想象成老师用清单给论文打分。
但不是“给写作质量打 1-10 分”(这很模糊,每次都不同),清单上的每个项目都是一个明确的“是”或“否”:
你可以用这个清单批改 100 篇论文,每次都能得到一致的结果。
这里也是同样的想法。对于一个着陆页文案技能,你的清单可能看起来像这样:
你不需要自己想出这些。当你开始自动研究时,Agent 会引导你完成。
它会询问“好”是什么样子,帮助你将你的感觉转化为具体的“是/否”问题,甚至会提供从现有风格指南中提取内容(如果你有的话)。
3-6 个问题是最佳数量。超过这个数量,技能就会开始“玩弄”清单(就像一个只记住答案而不理解材料的学生)。
步骤 1:下载技能。 从这里获取。将其放入 Claude Code 或 Cowork 的技能文件夹中。
步骤 2:选择一个要改进的技能。 说“对我的 [技能名称] 技能运行自动研究”。选择那个最让你烦恼的技能。那个一半时间输出很棒,另一半时间却一团糟的技能。
步骤 3:Agent 会问你 3 件事。 要优化的技能。要使用的测试输入(例如“为 AI 生产力工具编写着陆页文案”)。以及你的清单问题是什么。
步骤 4:它会运行你的技能并显示你的初始分数。 这是基线。我的着陆页技能从 56% 开始。模糊的标题,流行词堆砌,弱的 CTA。超过一半的检查都失败了。
步骤 5:它会在你的浏览器中打开一个实时仪表板。 分数图表随时间上升。每个清单问题的通过/失败细分。它尝试的每个更改的日志。每 10 秒自动刷新。
步骤 6:离开。 Agent 进入循环。分析失败的原因。对技能提示进行一个小的更改。再次测试。如果分数上升则保留更改,如果分数下降则撤销。
然后它会一遍又一遍地重复。它会自主运行,直到你停止它,或者它连续三次达到 95% 以上。
你可以观看仪表板,也可以完全离开。它会在没有你的情况下运行。它会将改进后的版本保存为单独的文件,因此你的原始技能保持不变。
我将它运行在我的着陆页文案技能上。以下是结果:
56% → 92%。4 轮更改。3 个保留,1 个撤销。
以下是 Agent 实际更改我的技能提示的内容:
完成后,我得到了:
这个更改日志可能是最有价值的部分。它是针对特定技能,哪些有效、哪些无效的完整记录。
当未来出现更智能的模型时,你可以将这个更改日志交给它们,它们就能从上一个 Agent 停止的地方继续。
该方法适用于任何可以评分的事物。
如果你能评分,你就能进行自动研究。
选择你表现最差的技能。开始自动研究。最终得到一个真正有效的技能。
从这里下载技能(已上传到 Dropbox)或查看我的 GitHub 这里。
- 原文链接: x.com/itsolelehmann/stat...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!