代理式AI技能设计的十大原则

本文阐述了代理式AI技能设计的十大原则,强调AI系统效能的显著提升源于技能设计而非模型本身。核心思想包括将技能视为可复用“食谱”,教AI思考而非直接给出结论,明确区分判断与计算,充分利用AI综合信息的能力,动态提供上下文,构建以技能为核心的AI系统架构,创建快速、专注的工具,关注“良好”而非“糟糕”的反馈以优化技能,以及将重复性工作固化为永久性技能,最终实现“一技多用”的复利效应。

Image

引言:会自动编写的食谱书

当人们发现 AI 系统可以变得极其有效时 —— 不是 2 倍的提升,而是 10 倍或 100 倍 —— 他们通常认为这是因为更聪明的模型、更好的算法或更多的参数。

事实并非如此。那些获得非凡成果的人使用的模型与其他人完全相同。区别在于他们如何包装这些模型 —— 具体来说,是他们如何编写技能(skills)。

技能是一份可重复使用的文档,它教导 AI 如何做某事。不是在某个特定情况下该做什么,而是如何处理一整类任务。可以把它看作是食谱,而不是订单。“这里是如何调查举报人投诉的方法”,而不是“告诉我史密斯博士是否被封口了”。

同样的技能,通过不同的输入调用,可以将 AI 变成医学研究分析师、法医调查员或政策合规审计员。技能描述过程;调用提供世界。

这篇文章总结了设计这些技能的十条原则。这些不是窍门或黑客手段;它们是关于 AI 系统如何运作的结构性见解。

原则 1:技能是食谱,而非命令

一个常见的错误是编写如下所示的技能:

“分析客户反馈并总结关键主题。”

这不叫技能;这是一个命令。它对一种情况奏效一次,然后就消失了。你无法重复使用它,因为所有具体的内容都被写死了。

一个真正的技能看起来像这样:

技能:主题分析 (Thematic Analysis)
参数:CORPUS(语料库文档),QUESTION(你正在寻找的内容),DEPTH(快速扫描或深度挖掘)
过程:
1. 阅读语料库,记录你的初步印象。
2. 识别循环出现的模式 —— 什么内容被反复提及?
3. 为你发现的主题命名。
4. 为每个主题提取具有代表性的例子。
5. 评估:哪些主题对 QUESTION 最重要?
6. 按照重要程度组织并撰写综合报告。

技能描述了一个过程 —— 一种无论你是在分析客户反馈、员工调查还是法律证词都行之有效的方法。一次性构建食谱;永久烹饪不同的菜肴。

原则 2:教会思考,而非结论

人们往往倾向于编写告诉 AI 该做何决定的技能:

“第 4 步:得出结论,证据支持对患者安全的担忧。”

这违背了初衷。你已经预设了结果,把 AI 变成了傀儡。即使你是对的,你也让这个技能在证据指向其他方向的情况下变得毫无用处。

优秀的技能教导如何思考:

“第 4 步:权衡支持和反对该假设的证据。考虑:时间线是否合理?是否存在替代解释?什么样的证据会改变你的想法?根据你的发现得出你自己的结论。”

第一个版本取代了判断;第二个版本调用了判断。如果你可以使用你的“调查举报人”技能来调查“此人是否被封口?”以及“此投诉是否毫无根据?”并根据证据得到不同的答案,那么你就编写了一个真正的技能。

原则 3:判断力 vs. 计算力

AI 系统中的每一步都属于以下两类之一:

  • 判断力 (Judgment) 是智能所在。阅读文档并决定什么是重要的,权衡相互竞争的考量,或者感觉到某些地方不对劲。AI 模型非常擅长这一点。
  • 计算力 (Computation) 是可靠性所在。每次都是相同的输入,相同的输出。数据库查询、算术运算、列表排序或检查日期范围。传统软件能完美完成这些;而 AI 做得并不靠谱。

让 AI 根据性格为晚餐桌安排 8 个人,它会做得非常出色。让它在同样的约束下安排 800 个人,它会产生看起来似乎合理但无形中违反约束的结果。安排 8 个人是一个判断力问题;安排 800 个人是一个优化问题。

原则: 技能应该明确地编排这一边界。标记哪些步骤需要判断(让 AI 思考),哪些步骤需要计算(调用工具)。不要让 AI 做算术,也不要让计算器做解释。

原则 4:综合的力量

AI 可以做数据库查询无法做到的事情:阅读关于一个人的五十份文件,发现矛盾,追踪故事随时间的变化,并撰写一份捕捉该人真实面貌的简介。我们称之为 diarization —— 将分散的信息综合成结构化的情报。

想象你正在评估初创公司创始人。数据库知道他们的行业。他们的申请上写着“AI 基础设施”。但他们的 1 对 1 谈话揭示了对计费的担忧,他们的 GitHub 提交记录显示 80% 的工作是在支付领域。一个 diarization 技能阅读所有这些信息并产出:

口头描述:"用于 AI Agent 的 Datadog"
实际构建:伪装成可观测性工具的 FinOps 工具
差距:定位与执行不匹配。要么正在转型,要么身份模糊。

任何关键词搜索都找不到这一点。AI 必须阅读所有内容并做出判断。构建那些阅读所有内容并进行综合的技能,而不是预先筛选到“相关”文档。

原则 5:在正确的时刻提供正确的文档

让 AI 淹没在信息中意味着它会遗漏重要内容。如果你提供 20,000 行指令,当前任务的关键指令就会变得不可见。

解决方法是使用解析器 (resolver) —— 一个在正确时刻加载正确上下文的路由系统。

  • 当执行 X 时,加载文档 Y。
  • 当看到模式 A 时,咨询技能 B。

一个优秀的助手不会为你朗读整个公司手册;他们知道哪一页对你的特定问题重要。构建能够感知需求并精准加载所需内容的解析器。

原则 6:智能上移,执行下移

将你的 AI 系统想象成一个三层蛋糕:

  1. 顶层(技能 Skills): 充满过程和判断的丰富文档。用自然语言编写。这是 90% 价值所在的地方。
  2. 中间层(harness): 一个薄薄的代码层,循环运行 AI,管理上下文并调用工具。这里没有业务逻辑。
  3. 底层(工具 Tools): 快速、简单的程序,可靠地执行一件事(查询数据库、发送电子邮件)。

原则: 将智能上移到技能中,将执行下移到工具中。保持 harness 薄。当 AI 模型改进时,每一项技能都会自动变得更好。如果你将智能嵌入代码(harness)中,你就会创造出一个难以改进且无法管理的混乱局面。

原则 7:快速且专注优于缓慢且通用

避免使用通用工具,比如可以做任何事情的“浏览器工具”,或者包装了每种可能查询的“数据库工具”。

  • 通用工具很慢: 通用的浏览器自动化可能需要 15 秒;而专用工具只需 100 毫秒。
  • 通用工具臃肿上下文: 太多的定义会消耗 AI 的注意力。
  • 通用工具隐藏复杂性: 当一个工具试图变得“聪明”时,你就把判断力埋在了你看不到的地方。

构建快速、专注且简单的工具。每个工具应该在半秒内完成一件事,而不进行解释或决策。工具是脚手架,而不是架构。

原则 8:专注于“还不错”以寻求改进

用户的反应通常分为三类:太棒了、还不错和糟糕。

大多数人专注于修复“糟糕”的反应,但“糟糕”的反应通常是明显的错误(崩溃或超时)。“还不错”的反应才是改进所在。

一个“还不错”的反应意味着机制起作用了,但判断力不足。综合得完整但肤浅,或者建议合理但不太对。

原则: 构建一个专注于反响平平的反馈的学习闭环。识别“还不错”与“太棒了”之间的差距,然后修改技能以弥合差距。例如,如果创始人是按行业而不是实际工作进行匹配的,就在技能中增加一条规则,优先考虑执行而非口头定位。

原则 9:代码化以获得永久能力

区分高性能系统的一种原则是拒绝做一次性的工作。如果一个任务可能会再次发生,你必须:

  1. 第一次手动完成。
  2. 展示产出以获得批准。
  3. 将过程代码化为一项技能。

你编写的每一项技能都是一次永久性的升级。与你可能会忘记的 Prompt 不同,技能会被保存并永远可用。它可以在凌晨 3 点运行,并处理成千上万个实例。随着模型的改进,你的技能库价值会不断复合。停止将 AI 仅仅看作是一场对话;开始将其看作是构建永久能力的机会。

原则 10:一个过程,多个上下文

一个设计良好的技能是一个接受参数的方法。考虑一个 /match 技能,它根据标准和约束对实体进行配对。同样的技能可以处理:

  • 会议分组讨论: 根据行业相似性将 1,200 名创始人分组。
  • 偶遇午餐: 根据跨行业新鲜感(之前没有见过面)将 600 名创始人分组。
  • 现场社交: 为当前在楼内的人员进行即时的 1 对 1 配对。

技能提供过程和智慧;参数提供特定数据和规则。你只需设计一次技能,就可以在你甚至还未想象到的上下文中调用它。

结论:代码化的准则

这些原则指向一个单一的准则:代码化

当你遇到重复的任务时,将其代码化。当你注意到一个有效的判断时,代码化你做出该判断的过程。那些获得 100 倍收益的人正不遗余力地将他们的工作代码化为技能,并让它们大规模运行。

一年后,你的技能将在更好的模型上运行。你今天代码化的每一次判断都将变成你永远不会失去的杠杆。构建一次;永久运行。

  • 原文链接: x.com/IntuitMachine/stat...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
IntuitMachine
IntuitMachine
江湖只有他的大名,没有他的介绍。