代理式AI技能设计的十大原则

IntuitMachine 发布于 2026-04-12 阅读 275

本文阐述了代理式AI技能设计的十大原则，强调AI系统效能的显著提升源于技能设计而非模型本身。核心思想包括将技能视为可复用“食谱”，教AI思考而非直接给出结论，明确区分判断与计算，充分利用AI综合信息的能力，动态提供上下文，构建以技能为核心的AI系统架构，创建快速、专注的工具，关注“良好”而非“糟糕”的反馈以优化技能，以及将重复性工作固化为永久性技能，最终实现“一技多用”的复利效应。

![Image](https://img.learnblockchain.cn/2026/04/12/83624129_image.jpg)

## 引言：会自动编写的食谱书

当人们发现 AI 系统可以变得极其有效时 —— 不是 2 倍的提升，而是 10 倍或 100 倍 —— 他们通常认为这是因为更聪明的模型、更好的算法或更多的参数。

事实并非如此。那些获得非凡成果的人使用的模型与其他人完全相同。区别在于他们如何包装这些模型 —— 具体来说，是他们如何编写**技能**（skills）。

技能是一份可重复使用的文档，它教导 AI 如何做某事。不是在某个特定情况下该做什么，而是如何处理一整类任务。可以把它看作是食谱，而不是订单。“这里是如何调查举报人投诉的方法”，而不是“告诉我史密斯博士是否被封口了”。

同样的技能，通过不同的输入调用，可以将 AI 变成医学研究分析师、法医调查员或政策合规审计员。技能描述过程；调用提供世界。

这篇文章总结了设计这些技能的十条原则。这些不是窍门或黑客手段；它们是关于 AI 系统如何运作的结构性见解。

## 原则 1：技能是食谱，而非命令

一个常见的错误是编写如下所示的技能：

> “分析客户反馈并总结关键主题。”

这不叫技能；这是一个命令。它对一种情况奏效一次，然后就消失了。你无法重复使用它，因为所有具体的内容都被写死了。

一个真正的技能看起来像这样：

```
技能：主题分析 (Thematic Analysis)
参数：CORPUS（语料库文档），QUESTION（你正在寻找的内容），DEPTH（快速扫描或深度挖掘）
过程：
1. 阅读语料库，记录你的初步印象。
2. 识别循环出现的模式 —— 什么内容被反复提及？
3. 为你发现的主题命名。
4. 为每个主题提取具有代表性的例子。
5. 评估：哪些主题对 QUESTION 最重要？
6. 按照重要程度组织并撰写综合报告。
```

技能描述了一个过程 —— 一种无论你是在分析客户反馈、员工调查还是法律证词都行之有效的方法。一次性构建食谱；永久烹饪不同的菜肴。

## 原则 2：教会思考，而非结论

人们往往倾向于编写告诉 AI 该做何决定的技能：

> “第 4 步：得出结论，证据支持对患者安全的担忧。”

这违背了初衷。你已经预设了结果，把 AI 变成了傀儡。即使你是对的，你也让这个技能在证据指向其他方向的情况下变得毫无用处。

优秀的技能教导如何思考：

> “第 4 步：权衡支持和反对该假设的证据。考虑：时间线是否合理？是否存在替代解释？什么样的证据会改变你的想法？根据你的发现得出你自己的结论。”

第一个版本取代了判断；第二个版本调用了判断。如果你可以使用你的“调查举报人”技能来调查“此人是否被封口？”以及“此投诉是否毫无根据？”并根据证据得到不同的答案，那么你就编写了一个真正的技能。

## 原则 3：判断力 vs. 计算力

AI 系统中的每一步都属于以下两类之一：

*   **判断力 (Judgment)** 是智能所在。阅读文档并决定什么是重要的，权衡相互竞争的考量，或者感觉到某些地方不对劲。AI 模型非常擅长这一点。
*   **计算力 (Computation)** 是可靠性所在。每次都是相同的输入，相同的输出。数据库查询、算术运算、列表排序或检查日期范围。传统软件能完美完成这些；而 AI 做得并不靠谱。

让 AI 根据性格为晚餐桌安排 8 个人，它会做得非常出色。让它在同样的约束下安排 800 个人，它会产生看起来似乎合理但无形中违反约束的结果。安排 8 个人是一个判断力问题；安排 800 个人是一个优化问题。

**原则：** 技能应该明确地编排这一边界。标记哪些步骤需要判断（让 AI 思考），哪些步骤需要计算（调用工具）。不要让 AI 做算术，也不要让计算器做解释。

## 原则 4：综合的力量

AI 可以做数据库查询无法做到的事情：阅读关于一个人的五十份文件，发现矛盾，追踪故事随时间的变化，并撰写一份捕捉该人真实面貌的简介。我们称之为 **diarization** —— 将分散的信息综合成结构化的情报。

想象你正在评估初创公司创始人。数据库知道他们的行业。他们的申请上写着“AI 基础设施”。但他们的 1 对 1 谈话揭示了对计费的担忧，他们的 GitHub 提交记录显示 80% 的工作是在支付领域。一个 **diarization** 技能阅读所有这些信息并产出：

```
口头描述："用于 AI Agent 的 Datadog"
实际构建：伪装成可观测性工具的 FinOps 工具
差距：定位与执行不匹配。要么正在转型，要么身份模糊。
```

任何关键词搜索都找不到这一点。AI 必须阅读所有内容并做出判断。构建那些阅读所有内容并进行综合的技能，而不是预先筛选到“相关”文档。

## 原则 5：在正确的时刻提供正确的文档

让 AI 淹没在信息中意味着它会遗漏重要内容。如果你提供 20,000 行指令，当前任务的关键指令就会变得不可见。

解决方法是使用**解析器 (resolver)** —— 一个在正确时刻加载正确上下文的路由系统。
*   当执行 X 时，加载文档 Y。
*   当看到模式 A 时，咨询技能 B。

一个优秀的助手不会为你朗读整个公司手册；他们知道哪一页对你的特定问题重要。构建能够感知需求并精准加载所需内容的解析器。

## 原则 6：智能上移，执行下移

将你的 AI 系统想象成一个三层蛋糕：

1.  **顶层（技能 Skills）：** 充满过程和判断的丰富文档。用自然语言编写。这是 90% 价值所在的地方。
2.  **中间层（harness）：** 一个薄薄的代码层，循环运行 AI，管理上下文并调用工具。这里没有业务逻辑。
3.  **底层（工具 Tools）：** 快速、简单的程序，可靠地执行一件事（查询数据库、发送电子邮件）。

**原则：** 将智能上移到技能中，将执行下移到工具中。保持 harness 薄。当 AI 模型改进时，每一项技能都会自动变得更好。如果你将智能嵌入代码（harness）中，你就会创造出一个难以改进且无法管理的混乱局面。

## 原则 7：快速且专注优于缓慢且通用

避免使用通用工具，比如可以做任何事情的“浏览器工具”，或者包装了每种可能查询的“数据库工具”。

*   **通用工具很慢：** 通用的浏览器自动化可能需要 15 秒；而专用工具只需 100 毫秒。
*   **通用工具臃肿上下文：** 太多的定义会消耗 AI 的注意力。
*   **通用工具隐藏复杂性：** 当一个工具试图变得“聪明”时，你就把判断力埋在了你看不到的地方。

构建快速、专注且简单的工具。每个工具应该在半秒内完成一件事，而不进行解释或决策。工具是脚手架，而不是架构。

## 原则 8：专注于“还不错”以寻求改进

用户的反应通常分为三类：太棒了、还不错和糟糕。

大多数人专注于修复“糟糕”的反应，但“糟糕”的反应通常是明显的错误（崩溃或超时）。**“还不错”的反应才是改进所在。**

一个“还不错”的反应意味着机制起作用了，但判断力不足。综合得完整但肤浅，或者建议合理但不太对。

**原则：** 构建一个专注于反响平平的反馈的学习闭环。识别“还不错”与“太棒了”之间的差距，然后修改技能以弥合差距。例如，如果创始人是按行业而不是实际工作进行匹配的，就在技能中增加一条规则，优先考虑执行而非口头定位。

## 原则 9：代码化以获得永久能力

区分高性能系统的一种原则是拒绝做一次性的工作。如果一个任务可能会再次发生，你必须：
1. 第一次手动完成。
2. 展示产出以获得批准。
3. 将过程代码化为一项技能。

你编写的每一项技能都是一次永久性的升级。与你可能会忘记的 Prompt 不同，技能会被保存并永远可用。它可以在凌晨 3 点运行，并处理成千上万个实例。随着模型的改进，你的技能库价值会不断复合。停止将 AI 仅仅看作是一场对话；开始将其看作是构建永久能力的机会。

## 原则 10：一个过程，多个上下文

一个设计良好的技能是一个接受参数的方法。考虑一个 `/match` 技能，它根据标准和约束对实体进行配对。同样的技能可以处理：

*   **会议分组讨论：** 根据行业相似性将 1,200 名创始人分组。
*   **偶遇午餐：** 根据跨行业新鲜感（之前没有见过面）将 600 名创始人分组。
*   **现场社交：** 为当前在楼内的人员进行即时的 1 对 1 配对。

技能提供过程和智慧；参数提供特定数据和规则。你只需设计一次技能，就可以在你甚至还未想象到的上下文中调用它。

## 结论：代码化的准则

这些原则指向一个单一的准则：**代码化**。

当你遇到重复的任务时，将其代码化。当你注意到一个有效的判断时，代码化你做出该判断的过程。那些获得 100 倍收益的人正不遗余力地将他们的工作代码化为技能，并让它们大规模运行。

一年后，你的技能将在更好的模型上运行。你今天代码化的每一次判断都将变成你永远不会失去的杠杆。构建一次；永久运行。

>- 原文链接： [x.com/IntuitMachine/stat...](https://x.com/IntuitMachine/status/2043071219667480853)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

引言：会自动编写的食谱书

事实并非如此。那些获得非凡成果的人使用的模型与其他人完全相同。区别在于他们如何包装这些模型 —— 具体来说，是他们如何编写技能（skills）。

同样的技能，通过不同的输入调用，可以将 AI 变成医学研究分析师、法医调查员或政策合规审计员。技能描述过程；调用提供世界。

这篇文章总结了设计这些技能的十条原则。这些不是窍门或黑客手段；它们是关于 AI 系统如何运作的结构性见解。

原则 1：技能是食谱，而非命令

一个常见的错误是编写如下所示的技能：

“分析客户反馈并总结关键主题。”

这不叫技能；这是一个命令。它对一种情况奏效一次，然后就消失了。你无法重复使用它，因为所有具体的内容都被写死了。

一个真正的技能看起来像这样：

技能：主题分析 (Thematic Analysis)
参数：CORPUS（语料库文档），QUESTION（你正在寻找的内容），DEPTH（快速扫描或深度挖掘）
过程：
1. 阅读语料库，记录你的初步印象。
2. 识别循环出现的模式 —— 什么内容被反复提及？
3. 为你发现的主题命名。
4. 为每个主题提取具有代表性的例子。
5. 评估：哪些主题对 QUESTION 最重要？
6. 按照重要程度组织并撰写综合报告。

技能描述了一个过程 —— 一种无论你是在分析客户反馈、员工调查还是法律证词都行之有效的方法。一次性构建食谱；永久烹饪不同的菜肴。

原则 2：教会思考，而非结论

人们往往倾向于编写告诉 AI 该做何决定的技能：

“第 4 步：得出结论，证据支持对患者安全的担忧。”

这违背了初衷。你已经预设了结果，把 AI 变成了傀儡。即使你是对的，你也让这个技能在证据指向其他方向的情况下变得毫无用处。

优秀的技能教导如何思考：

“第 4 步：权衡支持和反对该假设的证据。考虑：时间线是否合理？是否存在替代解释？什么样的证据会改变你的想法？根据你的发现得出你自己的结论。”

原则 3：判断力 vs. 计算力

AI 系统中的每一步都属于以下两类之一：

判断力 (Judgment) 是智能所在。阅读文档并决定什么是重要的，权衡相互竞争的考量，或者感觉到某些地方不对劲。AI 模型非常擅长这一点。
计算力 (Computation) 是可靠性所在。每次都是相同的输入，相同的输出。数据库查询、算术运算、列表排序或检查日期范围。传统软件能完美完成这些；而 AI 做得并不靠谱。

原则： 技能应该明确地编排这一边界。标记哪些步骤需要判断（让 AI 思考），哪些步骤需要计算（调用工具）。不要让 AI 做算术，也不要让计算器做解释。

原则 4：综合的力量

AI 可以做数据库查询无法做到的事情：阅读关于一个人的五十份文件，发现矛盾，追踪故事随时间的变化，并撰写一份捕捉该人真实面貌的简介。我们称之为 diarization —— 将分散的信息综合成结构化的情报。

想象你正在评估初创公司创始人。数据库知道他们的行业。他们的申请上写着“AI 基础设施”。但他们的 1 对 1 谈话揭示了对计费的担忧，他们的 GitHub 提交记录显示 80% 的工作是在支付领域。一个 diarization 技能阅读所有这些信息并产出：

口头描述："用于 AI Agent 的 Datadog"
实际构建：伪装成可观测性工具的 FinOps 工具
差距：定位与执行不匹配。要么正在转型，要么身份模糊。

任何关键词搜索都找不到这一点。AI 必须阅读所有内容并做出判断。构建那些阅读所有内容并进行综合的技能，而不是预先筛选到“相关”文档。

原则 5：在正确的时刻提供正确的文档

让 AI 淹没在信息中意味着它会遗漏重要内容。如果你提供 20,000 行指令，当前任务的关键指令就会变得不可见。

解决方法是使用解析器 (resolver) —— 一个在正确时刻加载正确上下文的路由系统。

当执行 X 时，加载文档 Y。
当看到模式 A 时，咨询技能 B。

一个优秀的助手不会为你朗读整个公司手册；他们知道哪一页对你的特定问题重要。构建能够感知需求并精准加载所需内容的解析器。

原则 6：智能上移，执行下移

将你的 AI 系统想象成一个三层蛋糕：

顶层（技能 Skills）： 充满过程和判断的丰富文档。用自然语言编写。这是 90% 价值所在的地方。
中间层（harness）： 一个薄薄的代码层，循环运行 AI，管理上下文并调用工具。这里没有业务逻辑。
底层（工具 Tools）： 快速、简单的程序，可靠地执行一件事（查询数据库、发送电子邮件）。

原则： 将智能上移到技能中，将执行下移到工具中。保持 harness 薄。当 AI 模型改进时，每一项技能都会自动变得更好。如果你将智能嵌入代码（harness）中，你就会创造出一个难以改进且无法管理的混乱局面。

原则 7：快速且专注优于缓慢且通用

避免使用通用工具，比如可以做任何事情的“浏览器工具”，或者包装了每种可能查询的“数据库工具”。

通用工具很慢： 通用的浏览器自动化可能需要 15 秒；而专用工具只需 100 毫秒。
通用工具臃肿上下文： 太多的定义会消耗 AI 的注意力。
通用工具隐藏复杂性： 当一个工具试图变得“聪明”时，你就把判断力埋在了你看不到的地方。

构建快速、专注且简单的工具。每个工具应该在半秒内完成一件事，而不进行解释或决策。工具是脚手架，而不是架构。

原则 8：专注于“还不错”以寻求改进

用户的反应通常分为三类：太棒了、还不错和糟糕。

大多数人专注于修复“糟糕”的反应，但“糟糕”的反应通常是明显的错误（崩溃或超时）。“还不错”的反应才是改进所在。

一个“还不错”的反应意味着机制起作用了，但判断力不足。综合得完整但肤浅，或者建议合理但不太对。

原则： 构建一个专注于反响平平的反馈的学习闭环。识别“还不错”与“太棒了”之间的差距，然后修改技能以弥合差距。例如，如果创始人是按行业而不是实际工作进行匹配的，就在技能中增加一条规则，优先考虑执行而非口头定位。

原则 9：代码化以获得永久能力

区分高性能系统的一种原则是拒绝做一次性的工作。如果一个任务可能会再次发生，你必须：

第一次手动完成。
展示产出以获得批准。
将过程代码化为一项技能。

原则 10：一个过程，多个上下文

一个设计良好的技能是一个接受参数的方法。考虑一个 /match 技能，它根据标准和约束对实体进行配对。同样的技能可以处理：

会议分组讨论： 根据行业相似性将 1,200 名创始人分组。
偶遇午餐： 根据跨行业新鲜感（之前没有见过面）将 600 名创始人分组。
现场社交： 为当前在楼内的人员进行即时的 1 对 1 配对。

技能提供过程和智慧；参数提供特定数据和规则。你只需设计一次技能，就可以在你甚至还未想象到的上下文中调用它。

结论：代码化的准则

这些原则指向一个单一的准则：代码化。

一年后，你的技能将在更好的模型上运行。你今天代码化的每一次判断都将变成你永远不会失去的杠杆。构建一次；永久运行。

原文链接： x.com/IntuitMachine/stat...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

0 条评论

代理式AI技能设计的十大原则

引言：会自动编写的食谱书

原则 1：技能是食谱，而非命令

原则 2：教会思考，而非结论

原则 3：判断力 vs. 计算力

原则 4：综合的力量

原则 5：在正确的时刻提供正确的文档

原则 6：智能上移，执行下移

原则 7：快速且专注优于缓慢且通用

原则 8：专注于“还不错”以寻求改进

原则 9：代码化以获得永久能力

原则 10：一个过程，多个上下文

结论：代码化的准则

相关文章

0 条评论

请输入验证码

登链社区服务条款与隐私政策

登链社区服务条款与隐私政策

登链社区用户服务条款

一、定义

二、服务内容

三、用户权利义务

四、知识产权保护

五、有限保证及服务免责

六、服务变更、中断或终止

七、通知和送达

八、投诉处理

九、法律适用、争议管辖及其他

隐私政策

一、登链社区可能收集的信息内容

二、登链社区收集信息的使用规则

三、登链社区如何共享、转让、公开披露您的个人信息

四、登链社区如何使用 Cookie 和同类技术

五、登链社区如何保护和保存您的个人信息

六、您如何管理个人信息

七、未成年人信息的保护

八、隐私政策的修订和更新

如何联系我们