本文阐述了代理式AI技能设计的十大原则,强调AI系统效能的显著提升源于技能设计而非模型本身。核心思想包括将技能视为可复用“食谱”,教AI思考而非直接给出结论,明确区分判断与计算,充分利用AI综合信息的能力,动态提供上下文,构建以技能为核心的AI系统架构,创建快速、专注的工具,关注“良好”而非“糟糕”的反馈以优化技能,以及将重复性工作固化为永久性技能,最终实现“一技多用”的复利效应。

当人们发现 AI 系统可以变得极其有效时 —— 不是 2 倍的提升,而是 10 倍或 100 倍 —— 他们通常认为这是因为更聪明的模型、更好的算法或更多的参数。
事实并非如此。那些获得非凡成果的人使用的模型与其他人完全相同。区别在于他们如何包装这些模型 —— 具体来说,是他们如何编写技能(skills)。
技能是一份可重复使用的文档,它教导 AI 如何做某事。不是在某个特定情况下该做什么,而是如何处理一整类任务。可以把它看作是食谱,而不是订单。“这里是如何调查举报人投诉的方法”,而不是“告诉我史密斯博士是否被封口了”。
同样的技能,通过不同的输入调用,可以将 AI 变成医学研究分析师、法医调查员或政策合规审计员。技能描述过程;调用提供世界。
这篇文章总结了设计这些技能的十条原则。这些不是窍门或黑客手段;它们是关于 AI 系统如何运作的结构性见解。
一个常见的错误是编写如下所示的技能:
“分析客户反馈并总结关键主题。”
这不叫技能;这是一个命令。它对一种情况奏效一次,然后就消失了。你无法重复使用它,因为所有具体的内容都被写死了。
一个真正的技能看起来像这样:
技能:主题分析 (Thematic Analysis)
参数:CORPUS(语料库文档),QUESTION(你正在寻找的内容),DEPTH(快速扫描或深度挖掘)
过程:
1. 阅读语料库,记录你的初步印象。
2. 识别循环出现的模式 —— 什么内容被反复提及?
3. 为你发现的主题命名。
4. 为每个主题提取具有代表性的例子。
5. 评估:哪些主题对 QUESTION 最重要?
6. 按照重要程度组织并撰写综合报告。
技能描述了一个过程 —— 一种无论你是在分析客户反馈、员工调查还是法律证词都行之有效的方法。一次性构建食谱;永久烹饪不同的菜肴。
人们往往倾向于编写告诉 AI 该做何决定的技能:
“第 4 步:得出结论,证据支持对患者安全的担忧。”
这违背了初衷。你已经预设了结果,把 AI 变成了傀儡。即使你是对的,你也让这个技能在证据指向其他方向的情况下变得毫无用处。
优秀的技能教导如何思考:
“第 4 步:权衡支持和反对该假设的证据。考虑:时间线是否合理?是否存在替代解释?什么样的证据会改变你的想法?根据你的发现得出你自己的结论。”
第一个版本取代了判断;第二个版本调用了判断。如果你可以使用你的“调查举报人”技能来调查“此人是否被封口?”以及“此投诉是否毫无根据?”并根据证据得到不同的答案,那么你就编写了一个真正的技能。
AI 系统中的每一步都属于以下两类之一:
让 AI 根据性格为晚餐桌安排 8 个人,它会做得非常出色。让它在同样的约束下安排 800 个人,它会产生看起来似乎合理但无形中违反约束的结果。安排 8 个人是一个判断力问题;安排 800 个人是一个优化问题。
原则: 技能应该明确地编排这一边界。标记哪些步骤需要判断(让 AI 思考),哪些步骤需要计算(调用工具)。不要让 AI 做算术,也不要让计算器做解释。
AI 可以做数据库查询无法做到的事情:阅读关于一个人的五十份文件,发现矛盾,追踪故事随时间的变化,并撰写一份捕捉该人真实面貌的简介。我们称之为 diarization —— 将分散的信息综合成结构化的情报。
想象你正在评估初创公司创始人。数据库知道他们的行业。他们的申请上写着“AI 基础设施”。但他们的 1 对 1 谈话揭示了对计费的担忧,他们的 GitHub 提交记录显示 80% 的工作是在支付领域。一个 diarization 技能阅读所有这些信息并产出:
口头描述:"用于 AI Agent 的 Datadog"
实际构建:伪装成可观测性工具的 FinOps 工具
差距:定位与执行不匹配。要么正在转型,要么身份模糊。
任何关键词搜索都找不到这一点。AI 必须阅读所有内容并做出判断。构建那些阅读所有内容并进行综合的技能,而不是预先筛选到“相关”文档。
让 AI 淹没在信息中意味着它会遗漏重要内容。如果你提供 20,000 行指令,当前任务的关键指令就会变得不可见。
解决方法是使用解析器 (resolver) —— 一个在正确时刻加载正确上下文的路由系统。
一个优秀的助手不会为你朗读整个公司手册;他们知道哪一页对你的特定问题重要。构建能够感知需求并精准加载所需内容的解析器。
将你的 AI 系统想象成一个三层蛋糕:
原则: 将智能上移到技能中,将执行下移到工具中。保持 harness 薄。当 AI 模型改进时,每一项技能都会自动变得更好。如果你将智能嵌入代码(harness)中,你就会创造出一个难以改进且无法管理的混乱局面。
避免使用通用工具,比如可以做任何事情的“浏览器工具”,或者包装了每种可能查询的“数据库工具”。
构建快速、专注且简单的工具。每个工具应该在半秒内完成一件事,而不进行解释或决策。工具是脚手架,而不是架构。
用户的反应通常分为三类:太棒了、还不错和糟糕。
大多数人专注于修复“糟糕”的反应,但“糟糕”的反应通常是明显的错误(崩溃或超时)。“还不错”的反应才是改进所在。
一个“还不错”的反应意味着机制起作用了,但判断力不足。综合得完整但肤浅,或者建议合理但不太对。
原则: 构建一个专注于反响平平的反馈的学习闭环。识别“还不错”与“太棒了”之间的差距,然后修改技能以弥合差距。例如,如果创始人是按行业而不是实际工作进行匹配的,就在技能中增加一条规则,优先考虑执行而非口头定位。
区分高性能系统的一种原则是拒绝做一次性的工作。如果一个任务可能会再次发生,你必须:
你编写的每一项技能都是一次永久性的升级。与你可能会忘记的 Prompt 不同,技能会被保存并永远可用。它可以在凌晨 3 点运行,并处理成千上万个实例。随着模型的改进,你的技能库价值会不断复合。停止将 AI 仅仅看作是一场对话;开始将其看作是构建永久能力的机会。
一个设计良好的技能是一个接受参数的方法。考虑一个 /match 技能,它根据标准和约束对实体进行配对。同样的技能可以处理:
技能提供过程和智慧;参数提供特定数据和规则。你只需设计一次技能,就可以在你甚至还未想象到的上下文中调用它。
这些原则指向一个单一的准则:代码化。
当你遇到重复的任务时,将其代码化。当你注意到一个有效的判断时,代码化你做出该判断的过程。那些获得 100 倍收益的人正不遗余力地将他们的工作代码化为技能,并让它们大规模运行。
一年后,你的技能将在更好的模型上运行。你今天代码化的每一次判断都将变成你永远不会失去的杠杆。构建一次;永久运行。
- 原文链接: x.com/IntuitMachine/stat...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!