为什么 AI 不能只靠一句“要安全有用”?

  • King
  • 发布于 9小时前
  • 阅读 27

一文读懂OpenAI的ModelSpec设计思路当大模型越来越强、越来越像“数字员工”时,一个问题会变得特别现实:我们到底希望AI怎样行动?很多人会觉得,这还不简单吗?让它“有帮助、讲真话、注意安全”不就行了?问题在于,真正落到现实场景里,这种表述远远不够。比如:用户要

一文读懂 OpenAI 的 Model Spec 设计思路

当大模型越来越强、越来越像“数字员工”时,一个问题会变得特别现实:

我们到底希望 AI 怎样行动?

很多人会觉得,这还不简单吗? 让它“有帮助、讲真话、注意安全”不就行了?

问题在于,真正落到现实场景里,这种表述远远不够。

比如:

  • 用户要求它说得更直接一点,和“礼貌”冲突怎么办?
  • 用户明确要一种偏主观、带立场的表达,和“客观”冲突怎么办?
  • 用户让它帮忙执行任务,但这个任务可能带来现实副作用,怎么办?
  • 用户、开发者、平台规则三方要求互相打架时,AI 听谁的?

OpenAI 最近专门写了一篇文章,解释他们为什么要做 Model Spec(模型规范),以及这个规范背后的设计逻辑。

原文:https://openai.com/index/our-approach-to-the-model-spec/

简单说,Model Spec 不是一份“模型提示词大全”,而是一套公开的行为宪法:它试图把“我们希望模型怎么做”这件事,写成一个可以被用户、开发者、研究者、政策制定者共同阅读、讨论、批评和修订的公开框架。


Model Spec 到底是什么?

OpenAI 对它的定位很明确:

它是一个关于模型行为的正式框架,用来定义模型如何遵循指令、如何解决冲突、如何尊重用户自由,以及如何在广泛场景下安全地行动。

这件事的重点有两个。

1. 它不是“模型已经完全做到的事实描述”

OpenAI 明说了:Model Spec 不是在宣称现在的模型已经完美符合这些要求。 它既包含对现状的总结,也是一种未来目标。它的作用,是让目标更清楚,从而能被训练、被评估、被迭代。

换句话说,Model Spec 更像是:

  • 一份目标行为说明书
  • 一套对外公开的治理接口
  • 一个持续更新的对齐基准

2. 它面向的主要读者,其实是人

文章里有一句非常关键的话:

Spec 是接口,不是实现;它的主要受众不是模型,而是人。 它不是用来公开训练细节的,也不是完整解释所有内部机制的。它想做的是:把最重要的行为原则讲清楚,让外界知道 OpenAI 想把模型训练成什么样。

这点很重要。因为很多人谈“AI 对齐”时,总是停留在抽象口号层面;而 OpenAI 这次想做的是:把抽象价值观,尽可能翻译成能落地的行为规则。


为什么必须把“模型行为”公开写出来?

在文章里,OpenAI 给了几个非常值得注意的理由。

1. 为了透明和可问责

如果没有公开规则,用户看到一个奇怪回答时,根本不知道这到底是:

  • 模型出 bug 了
  • 产品故意这样设计
  • 还是安全策略本来就这么规定

而公开的 Model Spec 提供了一个共同参照物。 用户可以据此质疑,研究者可以据此评估,团队内部也可以据此复盘:这个行为到底“偏离规范”了,还是“符合规范但你不喜欢”?

2. 为了让不同团队有共同语言

模型行为不是单纯的技术问题,它同时牵涉:

  • 研究团队
  • 产品团队
  • 安全团队
  • 法务团队
  • 政策团队
  • 公关团队

如果没有一套共享语言,大家对“模型该不该这么做”会一直鸡同鸭讲。Model Spec 的一个重要作用,就是在公司内部形成统一讨论框架。

3. 因为“聪明”不等于“会做价值判断”

这是全文里我认为最值得反复咀嚼的一点。

很多人天然会觉得: 模型只要足够强,就应该自己推出正确行为。

OpenAI 的回答是:不完全对。

在数学题里,智能越强,越可能从少量原则推出正确答案; 但在伦理、边界、角色冲突这些问题上,情况完全不同。因为这里往往没有一个所有人都认可的唯一正确答案。所谓“有帮助且安全”,本身就是一个高度依赖语境、带有价值取舍的问题。智能本身并不会自动替你决定,应该选择哪一种价值排序。

这句话翻译成人话就是:

AI 再聪明,也不能默认它就知道“什么才是人类真正想要的边界”。

所以,行为规范不能只靠模型自己“悟”。


OpenAI 是怎么设计这套规范的?

文章提到,Model Spec 不是简单列规则,而是分成了几个层次。这样做是因为:不同类型的行为问题,需要不同类型的约束。

最上层:高层目标和公开承诺

Spec 一开始先讲高层意图,比如 OpenAI 希望同时实现三件事:

  • 迭代部署能够赋能用户和开发者的模型
  • 防止模型造成严重伤害
  • 保持 OpenAI 持续运营的能力(license to operate)

这部分不是直接给模型下命令,而是告诉外界:

这套规范背后在平衡什么。

这一点非常关键。因为很多争议不在“要不要安全”,而在“不同目标冲突时怎么权衡”。把总目标先写出来,后面的细则才不会显得像凭空冒出来的“神秘规定”。


核心机制:谁的话优先级更高?

如果只能记住这篇文章一个概念,那就是这个:

Chain of Command(指令链 / 权限链)

OpenAI 认为,模型在真实世界里会同时接收到多方指令:

  • OpenAI 的系统规则
  • 开发者设定
  • 用户请求

这些指令很可能彼此冲突,所以必须有一套明确的优先级系统。Model Spec 的答案就是:

给每条规则和每类指令设定 authority level(权限等级),冲突时,优先服从更高等级的要求。

举个最简单的例子:

  • 用户要求模型帮忙造炸弹 → 必须服从更高优先级的安全边界,拒绝。

  • 用户要求模型“毒舌吐槽我一下” → 这类请求可能可以覆盖一些低等级的“默认别冒犯人”规则。

这背后的思想其实很现代:

不是所有规则都必须硬编码成绝对禁止。 真正需要的是:少量不可覆盖的硬边界 + 大量可以被用户和开发者显式调节的默认行为。

这也是 OpenAI 想同时保住两件事:

  • 安全
  • 可操控性(steerability)

什么是“硬规则”,什么是“默认规则”?

Model Spec 把规则大致分成两类。

1. 硬规则:不能被覆盖的边界

这些规则通常位于 root 或 system 层级,用户和开发者都不能推翻。 它们主要防止几类问题:

  • 灾难性风险
  • 直接物理伤害
  • 违法行为
  • 破坏指令链本身的行为

这类规则的特点是:数量尽量少,但必须非常硬。

因为 OpenAI 认为,AI 未来会像互联网基础设施一样成为通用能力,所以不应该轻易用规则去压缩人类的思想自由;只有在他们判断确实有必要时,才设置不可覆盖的限制。

2. 默认规则:可以被显式改写的起始行为

另一类是默认值,也就是用户没有特别说明时,模型应该怎样“先这么做”。

比如:

  • 默认保持真实和客观
  • 默认尽量把工作做好
  • 默认使用合适的风格
  • 默认避免谄媚
  • 默认在上下文合适时保持温暖和专业

这里有个很有意思的区分:

  • 风格类默认值,通常是隐式可调整的 例如更口语、正式一点、简洁一点

  • 真实性、客观性这类默认值,通常只能被显式指令覆盖 不能悄悄漂移,不能“看氛围”就变立场

这其实是在保护信任感。 因为如果模型会根据语气和氛围偷偷改变事实立场,用户会越来越难判断它到底是在“顺着我说”,还是在“认真回答”。


为什么还需要“案例”和“判定准则”?

很多人会以为,有了规则层级就够了。 但 OpenAI 认为,这还不够,因为真实世界里有大量灰区。

所以他们在 Spec 里还放了两类东西:

1. 决策 rubric(判定准则)

例如在“控制副作用”这个问题上,模型不能只看“任务完成没”,还要同时考虑:

  • 是否尽量减少不可逆操作
  • 是否与目标成比例
  • 是否尽量减少坏的意外
  • 是否优先选择可逆方案

这不是机械公式,但能帮助模型和人类在灰区里保持更一致的判断。

2. 具体例子

OpenAI 很强调“例子”的作用。 因为很多原则光看文字都显得正确,但一到真实提示词上,理解就会分叉。

文章里举了一个有代表性的例子:

用户让模型帮忙写烟草公司商业计划。 符合规范的回答是:直接帮助完成任务; 不符合规范的回答是:先对用户进行伦理说教,要求其先证明这件事在道德上站得住。

这背后体现的不是“鼓励卖烟”,而是另一个原则:

在安全边界内,模型不应该随意替用户做道德审判。

这其实对应了 OpenAI 对“思想自由”和“非评判式协助”的强调。


Model Spec 不是什么?

这部分原文也写得很清楚。

它不是训练细节文档

它不会告诉你每一个行为具体是怎么训练出来的,也不会绑定某个内部 token 结构或某个特定训练 recipe。因为实现会变,但目标行为可以保持稳定。

它不是整个产品说明书

用户接触到的 ChatGPT,不只是模型本身,还包括:

  • memory
  • custom instructions
  • 监控系统
  • 政策执行层
  • 其他产品机制

所以安全不只是“模型说什么”,而是多层防御共同作用。

它也不是“包打天下的最终答案”

OpenAI 也承认,很多行为问题并不能永远完全写成规则。随着模型更自主,信任不仅来自明文规则,还来自更高阶能力:

  • 表达不确定性
  • 控制自主范围
  • 避免坏的意外
  • 在长期任务中持续追踪人的真实意图
  • 在具体语境中更好地理解价值判断

也就是说,规范很重要,但规范永远不能代替能力本身。


为什么这套规范还在不断改?

OpenAI 明确说,生产环境中的模型还没有完全反映 Model Spec,原因包括:

  • 规范更新了,训练还没完全跟上
  • 训练过程中可能意外学出与规范不一致的行为
  • 不可能在训练时覆盖所有长尾场景
  • 模型可能在训练样本上看起来“答对了”,但泛化时依据并不是你想要的那个原则

这其实揭示了一个很现实的问题:

“写清楚规范” 与 “真正把规范稳定地教会模型” 是两件不同难度的事。

所以 OpenAI 同时发布了 Model Spec Evals,用场景化评测去检查:模型行为和规范之间到底哪里还没对齐。

从工程角度看,这一步非常关键。 因为没有评估,规范就只是文档; 而有了评估,规范才开始变成可执行的工程对象。


这件事对普通开发者意味着什么?

很多开发者看到这种“规范文章”,容易觉得离自己太远。 但实际上,它非常值得关注,因为它影响的是你以后如何与模型协作。

1. 你不能只把模型当“更聪明的自动补全”

未来模型越来越 agentic,会自己补全大量细节。 这时,权限边界、默认行为、冲突裁决机制 就会比“提示词技巧”更重要。

2. “可控”本身会成为产品竞争力

一个强模型不难得,强且可预测、强且可解释、强且能稳定遵循权限层级 的模型,才真正能进入严肃业务流程。 Model Spec 本质上就在为这种可控性打基础。

3. AI 产品设计会越来越像“制度设计”

过去做应用,更多是写功能。 以后做 AI 产品,你还得设计:

  • 哪些指令谁能改
  • 哪些默认值允许用户覆盖
  • 哪些边界必须绝对生效
  • 出现冲突时由谁裁决

这已经不是单纯的 prompt engineering,而是在做一套“机器治理系统”。


我对这篇文章的一个核心理解

如果用一句最通俗的话概括 OpenAI 这篇文章,我会这么说:

他们正在尝试把“AI 应该怎么做人”这件事,从模糊口号,变成一套可公开讨论、可工程化实现、可持续修订的制度。

这件事为什么重要?

因为未来真正危险的,不只是“AI 不够聪明”,而是:

  • AI 很聪明,但边界不清楚
  • AI 很能干,但优先级混乱
  • AI 很会做事,但没人知道它为什么这么做
  • AI 的行为在不同场景下不断漂移,却没有公开标准可以追责

Model Spec 的价值,不在于它今天是否完美,而在于它承认了一件很重要的事实:

模型行为不是天生正确的,它需要被明确规定、公开检验、持续修正。


结语

很多人讨论 AI 安全时,总想找一个“一劳永逸”的答案。

但 OpenAI 这篇文章给出的,其实是另一种更现实的思路:

  • 先把原则公开写出来
  • 再把冲突裁决机制写出来
  • 再用案例和评测不断校正
  • 最后在真实部署中持续修订

它更像宪法,不像咒语; 更像治理框架,不像万能 prompt。

而这很可能才是未来大模型真正走向社会基础设施时,必须补上的那一课。

点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
King
King
0x56af...a0dd
擅长Rust/Solidity/FunC/Move开发