一文读懂 OpenAI 的 Model Spec 设计思路

King
发布于 2026-03-28 21:08
阅读 428

一文读懂OpenAI的ModelSpec设计思路当大模型越来越强、越来越像“数字员工”时，一个问题会变得特别现实：我们到底希望AI怎样行动？很多人会觉得，这还不简单吗？让它“有帮助、讲真话、注意安全”不就行了？问题在于，真正落到现实场景里，这种表述远远不够。比如：用户要

当大模型越来越强、越来越像“数字员工”时，一个问题会变得特别现实：

**我们到底希望 AI 怎样行动？**

很多人会觉得，这还不简单吗？
让它“有帮助、讲真话、注意安全”不就行了？

问题在于，真正落到现实场景里，这种表述远远不够。

比如：

* 用户要求它说得更直接一点，和“礼貌”冲突怎么办？
* 用户明确要一种偏主观、带立场的表达，和“客观”冲突怎么办？
* 用户让它帮忙执行任务，但这个任务可能带来现实副作用，怎么办？
* 用户、开发者、平台规则三方要求互相打架时，AI 听谁的？

OpenAI 最近专门写了一篇文章，解释他们为什么要做 **Model Spec（模型规范）**，以及这个规范背后的设计逻辑。

> 原文：https://openai.com/index/our-approach-to-the-model-spec/

简单说，**Model Spec 不是一份“模型提示词大全”，而是一套公开的行为宪法**：它试图把“我们希望模型怎么做”这件事，写成一个可以被用户、开发者、研究者、政策制定者共同阅读、讨论、批评和修订的公开框架。

---

## Model Spec 到底是什么？

OpenAI 对它的定位很明确：

> 它是一个关于模型行为的正式框架，用来定义模型如何遵循指令、如何解决冲突、如何尊重用户自由，以及如何在广泛场景下安全地行动。

这件事的重点有两个。

### 1. 它不是“模型已经完全做到的事实描述”

OpenAI 明说了：**Model Spec 不是在宣称现在的模型已经完美符合这些要求**。
它既包含对现状的总结，也是一种未来目标。它的作用，是让目标更清楚，从而能被训练、被评估、被迭代。

换句话说，Model Spec 更像是：

* 一份目标行为说明书
* 一套对外公开的治理接口
* 一个持续更新的对齐基准

### 2. 它面向的主要读者，其实是人

文章里有一句非常关键的话：

**Spec 是接口，不是实现；它的主要受众不是模型，而是人。**
它不是用来公开训练细节的，也不是完整解释所有内部机制的。它想做的是：把最重要的行为原则讲清楚，让外界知道 OpenAI 想把模型训练成什么样。

这点很重要。因为很多人谈“AI 对齐”时，总是停留在抽象口号层面；而 OpenAI 这次想做的是：**把抽象价值观，尽可能翻译成能落地的行为规则。**

---

## 为什么必须把“模型行为”公开写出来？

在文章里，OpenAI 给了几个非常值得注意的理由。

### 1. 为了透明和可问责

如果没有公开规则，用户看到一个奇怪回答时，根本不知道这到底是：

* 模型出 bug 了
* 产品故意这样设计
* 还是安全策略本来就这么规定

而公开的 Model Spec 提供了一个共同参照物。
用户可以据此质疑，研究者可以据此评估，团队内部也可以据此复盘：**这个行为到底“偏离规范”了，还是“符合规范但你不喜欢”？**

### 2. 为了让不同团队有共同语言

模型行为不是单纯的技术问题，它同时牵涉：

* 研究团队
* 产品团队
* 安全团队
* 法务团队
* 政策团队
* 公关团队

如果没有一套共享语言，大家对“模型该不该这么做”会一直鸡同鸭讲。Model Spec 的一个重要作用，就是在公司内部形成统一讨论框架。

### 3. 因为“聪明”不等于“会做价值判断”

这是全文里我认为最值得反复咀嚼的一点。

很多人天然会觉得：
**模型只要足够强，就应该自己推出正确行为。**

OpenAI 的回答是：**不完全对。**

在数学题里，智能越强，越可能从少量原则推出正确答案；
但在伦理、边界、角色冲突这些问题上，情况完全不同。因为这里往往没有一个所有人都认可的唯一正确答案。所谓“有帮助且安全”，本身就是一个高度依赖语境、带有价值取舍的问题。**智能本身并不会自动替你决定，应该选择哪一种价值排序。**

这句话翻译成人话就是：

> AI 再聪明，也不能默认它就知道“什么才是人类真正想要的边界”。

所以，行为规范不能只靠模型自己“悟”。

---

## OpenAI 是怎么设计这套规范的？

文章提到，Model Spec 不是简单列规则，而是分成了几个层次。这样做是因为：**不同类型的行为问题，需要不同类型的约束。**

### 最上层：高层目标和公开承诺

Spec 一开始先讲高层意图，比如 OpenAI 希望同时实现三件事：

* 迭代部署能够赋能用户和开发者的模型
* 防止模型造成严重伤害
* 保持 OpenAI 持续运营的能力（license to operate）

这部分不是直接给模型下命令，而是告诉外界：

**这套规范背后在平衡什么。**

这一点非常关键。因为很多争议不在“要不要安全”，而在“不同目标冲突时怎么权衡”。把总目标先写出来，后面的细则才不会显得像凭空冒出来的“神秘规定”。

---

## 核心机制：谁的话优先级更高？

如果只能记住这篇文章一个概念，那就是这个：

> **Chain of Command（指令链 / 权限链）**

OpenAI 认为，模型在真实世界里会同时接收到多方指令：

* OpenAI 的系统规则
* 开发者设定
* 用户请求

这些指令很可能彼此冲突，所以必须有一套明确的优先级系统。Model Spec 的答案就是：

> **给每条规则和每类指令设定 authority level（权限等级），冲突时，优先服从更高等级的要求。**

举个最简单的例子：

* 用户要求模型帮忙造炸弹
  → 必须服从更高优先级的安全边界，拒绝。

* 用户要求模型“毒舌吐槽我一下”
  → 这类请求可能可以覆盖一些低等级的“默认别冒犯人”规则。

这背后的思想其实很现代：

> **不是所有规则都必须硬编码成绝对禁止。**
> 真正需要的是：少量不可覆盖的硬边界 + 大量可以被用户和开发者显式调节的默认行为。

这也是 OpenAI 想同时保住两件事：

* **安全**
* **可操控性（steerability）**

---

## 什么是“硬规则”，什么是“默认规则”？

Model Spec 把规则大致分成两类。

### 1. 硬规则：不能被覆盖的边界

这些规则通常位于 root 或 system 层级，用户和开发者都不能推翻。
它们主要防止几类问题：

* 灾难性风险
* 直接物理伤害
* 违法行为
* 破坏指令链本身的行为

这类规则的特点是：**数量尽量少，但必须非常硬。**

因为 OpenAI 认为，AI 未来会像互联网基础设施一样成为通用能力，所以不应该轻易用规则去压缩人类的思想自由；只有在他们判断确实有必要时，才设置不可覆盖的限制。

### 2. 默认规则：可以被显式改写的起始行为

另一类是默认值，也就是用户没有特别说明时，模型应该怎样“先这么做”。

比如：

* 默认保持真实和客观
* 默认尽量把工作做好
* 默认使用合适的风格
* 默认避免谄媚
* 默认在上下文合适时保持温暖和专业

这里有个很有意思的区分：

* **风格类默认值**，通常是隐式可调整的
  例如更口语、正式一点、简洁一点

* **真实性、客观性这类默认值**，通常只能被显式指令覆盖
  不能悄悄漂移，不能“看氛围”就变立场

这其实是在保护信任感。
因为如果模型会根据语气和氛围偷偷改变事实立场，用户会越来越难判断它到底是在“顺着我说”，还是在“认真回答”。

---

## 为什么还需要“案例”和“判定准则”？

很多人会以为，有了规则层级就够了。
但 OpenAI 认为，这还不够，因为真实世界里有大量灰区。

所以他们在 Spec 里还放了两类东西：

### 1. 决策 rubric（判定准则）

例如在“控制副作用”这个问题上，模型不能只看“任务完成没”，还要同时考虑：

* 是否尽量减少不可逆操作
* 是否与目标成比例
* 是否尽量减少坏的意外
* 是否优先选择可逆方案

这不是机械公式，但能帮助模型和人类在灰区里保持更一致的判断。

### 2. 具体例子

OpenAI 很强调“例子”的作用。
因为很多原则光看文字都显得正确，但一到真实提示词上，理解就会分叉。

文章里举了一个有代表性的例子：

用户让模型帮忙写烟草公司商业计划。
符合规范的回答是：直接帮助完成任务；
不符合规范的回答是：先对用户进行伦理说教，要求其先证明这件事在道德上站得住。

这背后体现的不是“鼓励卖烟”，而是另一个原则：

> **在安全边界内，模型不应该随意替用户做道德审判。**

这其实对应了 OpenAI 对“思想自由”和“非评判式协助”的强调。

---

## Model Spec 不是什么？

这部分原文也写得很清楚。

### 它不是训练细节文档

它不会告诉你每一个行为具体是怎么训练出来的，也不会绑定某个内部 token 结构或某个特定训练 recipe。因为实现会变，但目标行为可以保持稳定。

### 它不是整个产品说明书

用户接触到的 ChatGPT，不只是模型本身，还包括：

* memory
* custom instructions
* 监控系统
* 政策执行层
* 其他产品机制

所以安全不只是“模型说什么”，而是多层防御共同作用。

### 它也不是“包打天下的最终答案”

OpenAI 也承认，很多行为问题并不能永远完全写成规则。随着模型更自主，信任不仅来自明文规则，还来自更高阶能力：

* 表达不确定性
* 控制自主范围
* 避免坏的意外
* 在长期任务中持续追踪人的真实意图
* 在具体语境中更好地理解价值判断

也就是说，**规范很重要，但规范永远不能代替能力本身。**

---

## 为什么这套规范还在不断改？

OpenAI 明确说，生产环境中的模型还没有完全反映 Model Spec，原因包括：

* 规范更新了，训练还没完全跟上
* 训练过程中可能意外学出与规范不一致的行为
* 不可能在训练时覆盖所有长尾场景
* 模型可能在训练样本上看起来“答对了”，但泛化时依据并不是你想要的那个原则

这其实揭示了一个很现实的问题：

> **“写清楚规范” 与 “真正把规范稳定地教会模型” 是两件不同难度的事。**

所以 OpenAI 同时发布了 Model Spec Evals，用场景化评测去检查：模型行为和规范之间到底哪里还没对齐。

从工程角度看，这一步非常关键。
因为没有评估，规范就只是文档；
而有了评估，规范才开始变成可执行的工程对象。

---

## 这件事对普通开发者意味着什么？

很多开发者看到这种“规范文章”，容易觉得离自己太远。
但实际上，它非常值得关注，因为它影响的是你以后如何与模型协作。

### 1. 你不能只把模型当“更聪明的自动补全”

未来模型越来越 agentic，会自己补全大量细节。
这时，**权限边界、默认行为、冲突裁决机制** 就会比“提示词技巧”更重要。

### 2. “可控”本身会成为产品竞争力

一个强模型不难得，**强且可预测、强且可解释、强且能稳定遵循权限层级** 的模型，才真正能进入严肃业务流程。
Model Spec 本质上就在为这种可控性打基础。

### 3. AI 产品设计会越来越像“制度设计”

过去做应用，更多是写功能。
以后做 AI 产品，你还得设计：

* 哪些指令谁能改
* 哪些默认值允许用户覆盖
* 哪些边界必须绝对生效
* 出现冲突时由谁裁决

这已经不是单纯的 prompt engineering，而是在做一套“机器治理系统”。

---

## 我对这篇文章的一个核心理解

如果用一句最通俗的话概括 OpenAI 这篇文章，我会这么说：

> **他们正在尝试把“AI 应该怎么做人”这件事，从模糊口号，变成一套可公开讨论、可工程化实现、可持续修订的制度。**

这件事为什么重要？

因为未来真正危险的，不只是“AI 不够聪明”，而是：

* AI 很聪明，但边界不清楚
* AI 很能干，但优先级混乱
* AI 很会做事，但没人知道它为什么这么做
* AI 的行为在不同场景下不断漂移，却没有公开标准可以追责

Model Spec 的价值，不在于它今天是否完美，而在于它承认了一件很重要的事实：

> **模型行为不是天生正确的，它需要被明确规定、公开检验、持续修正。**

---

## 结语

很多人讨论 AI 安全时，总想找一个“一劳永逸”的答案。

但 OpenAI 这篇文章给出的，其实是另一种更现实的思路：

* 先把原则公开写出来
* 再把冲突裁决机制写出来
* 再用案例和评测不断校正
* 最后在真实部署中持续修订

它更像宪法，不像咒语；
更像治理框架，不像万能 prompt。

而这很可能才是未来大模型真正走向社会基础设施时，必须补上的那一课。

当大模型越来越强、越来越像“数字员工”时，一个问题会变得特别现实：

我们到底希望 AI 怎样行动？

很多人会觉得，这还不简单吗？让它“有帮助、讲真话、注意安全”不就行了？

问题在于，真正落到现实场景里，这种表述远远不够。

比如：

用户要求它说得更直接一点，和“礼貌”冲突怎么办？
用户明确要一种偏主观、带立场的表达，和“客观”冲突怎么办？
用户让它帮忙执行任务，但这个任务可能带来现实副作用，怎么办？
用户、开发者、平台规则三方要求互相打架时，AI 听谁的？

OpenAI 最近专门写了一篇文章，解释他们为什么要做 Model Spec（模型规范），以及这个规范背后的设计逻辑。

原文：https://openai.com/index/our-approach-to-the-model-spec/

简单说，Model Spec 不是一份“模型提示词大全”，而是一套公开的行为宪法：它试图把“我们希望模型怎么做”这件事，写成一个可以被用户、开发者、研究者、政策制定者共同阅读、讨论、批评和修订的公开框架。

Model Spec 到底是什么？

OpenAI 对它的定位很明确：

它是一个关于模型行为的正式框架，用来定义模型如何遵循指令、如何解决冲突、如何尊重用户自由，以及如何在广泛场景下安全地行动。

这件事的重点有两个。

1. 它不是“模型已经完全做到的事实描述”

OpenAI 明说了：Model Spec 不是在宣称现在的模型已经完美符合这些要求。它既包含对现状的总结，也是一种未来目标。它的作用，是让目标更清楚，从而能被训练、被评估、被迭代。

换句话说，Model Spec 更像是：

一份目标行为说明书
一套对外公开的治理接口
一个持续更新的对齐基准

2. 它面向的主要读者，其实是人

文章里有一句非常关键的话：

Spec 是接口，不是实现；它的主要受众不是模型，而是人。 它不是用来公开训练细节的，也不是完整解释所有内部机制的。它想做的是：把最重要的行为原则讲清楚，让外界知道 OpenAI 想把模型训练成什么样。

这点很重要。因为很多人谈“AI 对齐”时，总是停留在抽象口号层面；而 OpenAI 这次想做的是：把抽象价值观，尽可能翻译成能落地的行为规则。

为什么必须把“模型行为”公开写出来？

在文章里，OpenAI 给了几个非常值得注意的理由。

1. 为了透明和可问责

如果没有公开规则，用户看到一个奇怪回答时，根本不知道这到底是：

模型出 bug 了
产品故意这样设计
还是安全策略本来就这么规定

而公开的 Model Spec 提供了一个共同参照物。用户可以据此质疑，研究者可以据此评估，团队内部也可以据此复盘：这个行为到底“偏离规范”了，还是“符合规范但你不喜欢”？

2. 为了让不同团队有共同语言

模型行为不是单纯的技术问题，它同时牵涉：

研究团队
产品团队
安全团队
法务团队
政策团队
公关团队

如果没有一套共享语言，大家对“模型该不该这么做”会一直鸡同鸭讲。Model Spec 的一个重要作用，就是在公司内部形成统一讨论框架。

3. 因为“聪明”不等于“会做价值判断”

这是全文里我认为最值得反复咀嚼的一点。

很多人天然会觉得： 模型只要足够强，就应该自己推出正确行为。

OpenAI 的回答是：不完全对。

在数学题里，智能越强，越可能从少量原则推出正确答案；但在伦理、边界、角色冲突这些问题上，情况完全不同。因为这里往往没有一个所有人都认可的唯一正确答案。所谓“有帮助且安全”，本身就是一个高度依赖语境、带有价值取舍的问题。智能本身并不会自动替你决定，应该选择哪一种价值排序。

这句话翻译成人话就是：

AI 再聪明，也不能默认它就知道“什么才是人类真正想要的边界”。

所以，行为规范不能只靠模型自己“悟”。

OpenAI 是怎么设计这套规范的？

文章提到，Model Spec 不是简单列规则，而是分成了几个层次。这样做是因为：不同类型的行为问题，需要不同类型的约束。

最上层：高层目标和公开承诺

Spec 一开始先讲高层意图，比如 OpenAI 希望同时实现三件事：

迭代部署能够赋能用户和开发者的模型
防止模型造成严重伤害
保持 OpenAI 持续运营的能力（license to operate）

这部分不是直接给模型下命令，而是告诉外界：

这套规范背后在平衡什么。

核心机制：谁的话优先级更高？

如果只能记住这篇文章一个概念，那就是这个：

Chain of Command（指令链 / 权限链）

OpenAI 认为，模型在真实世界里会同时接收到多方指令：

OpenAI 的系统规则
开发者设定
用户请求

这些指令很可能彼此冲突，所以必须有一套明确的优先级系统。Model Spec 的答案就是：

给每条规则和每类指令设定 authority level（权限等级），冲突时，优先服从更高等级的要求。

举个最简单的例子：

用户要求模型帮忙造炸弹 → 必须服从更高优先级的安全边界，拒绝。
用户要求模型“毒舌吐槽我一下” → 这类请求可能可以覆盖一些低等级的“默认别冒犯人”规则。

这背后的思想其实很现代：

不是所有规则都必须硬编码成绝对禁止。 真正需要的是：少量不可覆盖的硬边界 + 大量可以被用户和开发者显式调节的默认行为。

这也是 OpenAI 想同时保住两件事：

安全
可操控性（steerability）

什么是“硬规则”，什么是“默认规则”？

Model Spec 把规则大致分成两类。

1. 硬规则：不能被覆盖的边界

这些规则通常位于 root 或 system 层级，用户和开发者都不能推翻。它们主要防止几类问题：

灾难性风险
直接物理伤害
违法行为
破坏指令链本身的行为

这类规则的特点是：数量尽量少，但必须非常硬。

2. 默认规则：可以被显式改写的起始行为

另一类是默认值，也就是用户没有特别说明时，模型应该怎样“先这么做”。

比如：

默认保持真实和客观
默认尽量把工作做好
默认使用合适的风格
默认避免谄媚
默认在上下文合适时保持温暖和专业

这里有个很有意思的区分：

风格类默认值，通常是隐式可调整的例如更口语、正式一点、简洁一点
真实性、客观性这类默认值，通常只能被显式指令覆盖不能悄悄漂移，不能“看氛围”就变立场

这其实是在保护信任感。因为如果模型会根据语气和氛围偷偷改变事实立场，用户会越来越难判断它到底是在“顺着我说”，还是在“认真回答”。

为什么还需要“案例”和“判定准则”？

很多人会以为，有了规则层级就够了。但 OpenAI 认为，这还不够，因为真实世界里有大量灰区。

所以他们在 Spec 里还放了两类东西：

1. 决策 rubric（判定准则）

例如在“控制副作用”这个问题上，模型不能只看“任务完成没”，还要同时考虑：

是否尽量减少不可逆操作
是否与目标成比例
是否尽量减少坏的意外
是否优先选择可逆方案

这不是机械公式，但能帮助模型和人类在灰区里保持更一致的判断。

2. 具体例子

OpenAI 很强调“例子”的作用。因为很多原则光看文字都显得正确，但一到真实提示词上，理解就会分叉。

文章里举了一个有代表性的例子：

用户让模型帮忙写烟草公司商业计划。符合规范的回答是：直接帮助完成任务；不符合规范的回答是：先对用户进行伦理说教，要求其先证明这件事在道德上站得住。

这背后体现的不是“鼓励卖烟”，而是另一个原则：

在安全边界内，模型不应该随意替用户做道德审判。

这其实对应了 OpenAI 对“思想自由”和“非评判式协助”的强调。

Model Spec 不是什么？

这部分原文也写得很清楚。

它不是训练细节文档

它不会告诉你每一个行为具体是怎么训练出来的，也不会绑定某个内部 token 结构或某个特定训练 recipe。因为实现会变，但目标行为可以保持稳定。

它不是整个产品说明书

用户接触到的 ChatGPT，不只是模型本身，还包括：

memory
custom instructions
监控系统
政策执行层
其他产品机制

所以安全不只是“模型说什么”，而是多层防御共同作用。

它也不是“包打天下的最终答案”

OpenAI 也承认，很多行为问题并不能永远完全写成规则。随着模型更自主，信任不仅来自明文规则，还来自更高阶能力：

表达不确定性
控制自主范围
避免坏的意外
在长期任务中持续追踪人的真实意图
在具体语境中更好地理解价值判断

也就是说，规范很重要，但规范永远不能代替能力本身。

为什么这套规范还在不断改？

OpenAI 明确说，生产环境中的模型还没有完全反映 Model Spec，原因包括：

规范更新了，训练还没完全跟上
训练过程中可能意外学出与规范不一致的行为
不可能在训练时覆盖所有长尾场景
模型可能在训练样本上看起来“答对了”，但泛化时依据并不是你想要的那个原则

这其实揭示了一个很现实的问题：

“写清楚规范” 与 “真正把规范稳定地教会模型” 是两件不同难度的事。

所以 OpenAI 同时发布了 Model Spec Evals，用场景化评测去检查：模型行为和规范之间到底哪里还没对齐。

从工程角度看，这一步非常关键。因为没有评估，规范就只是文档；而有了评估，规范才开始变成可执行的工程对象。

这件事对普通开发者意味着什么？

很多开发者看到这种“规范文章”，容易觉得离自己太远。但实际上，它非常值得关注，因为它影响的是你以后如何与模型协作。

1. 你不能只把模型当“更聪明的自动补全”

未来模型越来越 agentic，会自己补全大量细节。这时，权限边界、默认行为、冲突裁决机制 就会比“提示词技巧”更重要。

2. “可控”本身会成为产品竞争力

一个强模型不难得，强且可预测、强且可解释、强且能稳定遵循权限层级 的模型，才真正能进入严肃业务流程。 Model Spec 本质上就在为这种可控性打基础。

3. AI 产品设计会越来越像“制度设计”

过去做应用，更多是写功能。以后做 AI 产品，你还得设计：

哪些指令谁能改
哪些默认值允许用户覆盖
哪些边界必须绝对生效
出现冲突时由谁裁决