AI推理信任堆栈:如何验证“模型说了X”

projectzkm 发布于 2026-06-22 阅读 49

本文提出机器认知的信任堆栈,将“模型说X”分解为身份、执行、输入完整性和策略合规性四个层次,并介绍复制、经济验证、硬件认证和密码学证明四种验证机制。作者主张组合使用这些机制,而非竞争,并强调当前最紧迫的是验证身份和策略层,而非神经网络执行。文章呼吁行业建立标准,将推理保证声明为元组。

图像

机器认知的信任堆栈

可验证自反性中,我们论证了加密领域每一次灾难性失败都是同一种失败——系统对自己做出声明却无人验证——而本行业定义性的特征正是通过证明来闭合这个循环。我们以一个警告结尾:下一个主导经济主体将是 AI Agent,一个由未经验证的自我描述机器构成的经济体,就是 FTX 问题以难以想象的速度重演。

本文开始建设性工作。如果 Agent 必须证明自己,第一个问题直白得残酷:证明一个模型产生了某个输出,究竟意味着什么?

这个问题听起来简单,实则不然。"模型说了 X"实际上是由四个相互堆叠的不同声明构成的,而该领域几乎每个项目都把它们混为一谈:

声明1——身份(Identity)。是这一特定模型——这些权重、这个架构、这个版本——在运行。没有身份,"模型说了 X"毫无意义;任何输出都可以归因于任何模型。

声明2——执行(Execution)。前向传播计算正确:输出确实是那些权重在该输入上产生的,而不是更便宜模型的答案、缓存答案或伪造答案。

声明3——输入完整性(Input integrity)。模型看到的输入就是依赖方认为它看到的输入——没有提示替换、没有隐藏的系统提示注入、没有上下文篡改。

声明4——策略合规性(Policy conformance)。输出是在声明的运行策略下产生的:正确的采样参数、可用的工具集、生效的约束条件。

我们把能同时建立这四点的系统称为完全认证推理。当前生产中几乎没有系统能建立其中哪怕一点。

图像

表1. "模型说了 X"内部的四个声明——以及对手的实际杠杆所在。

验证机器的四种方式

让推理声明可检查的已知机制正好有四种,它们构成了一个堆栈——按保证强度排序,且并非巧合地也按成本排序。

复制(Replication)

多个独立方在同一输入上运行同一模型并比较结果。这是区块链对状态转换所做的,也是一些去中心化推理网络对模型所做的。概念上简单,经济上残酷:每次推理需要 N 倍冗余,加上一个未解决的问题——跨硬件的浮点非确定性使得"相同输出"成为一个模糊谓词。复制只能验证那些便宜到可以运行多次的东西。

经济验证(Economic verification)

乐观方案:假设结果是诚实的,允许一个挑战窗口,如果欺诈证明成立则惩罚证明者。这继承了所有乐观系统的深层局限——保证的强度取决于挑战者的警觉程度和窗口延迟。一个基于推理立即行动的 Agent 无法等待关于推理是否真实的最终确认。

硬件认证(Hardware attestation)

可信执行环境签署一个声明:"该飞地在给定输入上运行了该二进制程序"。TEE 很快——接近原生推理速度——并且是当今可验证 AI 的实用主力。但信任模型最终取决于芯片供应商,而飞地安全的历史就是提取攻击的历史。认证只是转移了信任,并未消除信任。它是一个关于声明的声明,由英特尔签署。

加密证明(Cryptographic proof)

对计算本身的零知识证明:前向传播在证明系统内执行,生成一个任何人都能永久检查的证书,无需信任的供应商、无需挑战窗口、无需冗余。这是堆栈中唯一提供无条件保证的机制。然而,到今天为止,它也是最昂贵的——实时证明前沿规模的推理超出了当前技术水平,任何告诉你相反的项目的都在推销什么。

这是我们将要捍卫的立场,而且它不是你可能期待的 ZK 公司的极端立场:推理信任堆栈是一个堆栈,而不是一场竞赛。当前阶段的错误是把这四种机制视为对手。

正确的架构是组合它们——今天用硬件认证处理沉重的张量计算,用加密证明处理那些无条件保证最重要的层,用复制和经济作为过渡性脚手架——随着证明器越来越快,层之间的边界逐年下移。

终局是加密的。通往终局的路径是混合的。

图像

图1. 推理信任堆栈:组合各层,然后让证明器吞吐量推动边界下移。

必须先证明什么

如果前沿推理的完整加密证明尚不实用,工程问题就变成:今天,四个声明中哪些用加密方式证明,哪些用较弱机制覆盖?

答案来自询问对手的杠杆在哪里。想要作弊的 Agent 操作者不需要伪造矩阵乘法。廉价的攻击在边缘:用更小的模型替换(身份)、篡改上下文(输入完整性)、静默更改采样策略或工具集(策略合规性)。中间昂贵而难以伪造的部分——原始前向传播——反而最不值得伪造,因为边缘毫无防备。

这颠覆了行业的直觉。zkML 领域多年来一直竞相证明声明2——前向传播——因为它是最困难、最迷人的问题。但对未经验证的模型身份和未经验证的输入进行的正确执行证明,实际上什么也没证明。没有身份证明的推理证明只是作秀。

因此,按每个证明周期的杠杆排序的实用堆栈如下:

第一,身份:对精确权重的密码学承诺——生成便宜、验证便宜,是所有其他声明有意义的前提条件。

第二,策略与编排:周围的程序——调用了哪个模型、用什么参数、什么工具、如何组装上下文——都是普通代码,正是通用 zkVM 当前能高效证明的那种东西。

第三,输入来源:上下文来自哪里,这是穿着新外衣的预言机问题。最后才是执行,今天用认证加承诺覆盖,随着混合管道成熟迁移到完整证明。

最迫切需要无条件验证的层不是神经网络,而是编排层——围绕模型的策略逻辑。这一层是 Agent 对自己做出声明的地方。这一层是自反性的,并且现在已经可以证明。

行业还没有的标准

缺失的不是单一技术。而是关于"验证推理"含义的共识——一种让依赖方在看到"已验证"这个词时知道四个声明中哪些已被建立、以及通过四种机制中的哪一种建立的方式。

我们提议行业养成将推理保证表述为一个元组的习惯:身份、执行、输入、策略——每一项都标注其机制。一个交易 Agent 今天可能诚实地宣称:身份已证明、策略已证明、输入已认证、执行已认证。监管者、对手方或其他 Agent 可以为这个元组定价。而没有人能为赤裸的形容词"可验证"定价——目前这个形容词在整个行业所做的营销工作远远多于工程工作。

在我们将这个草图变成正式提案之前,我们需要确立每一层要求什么——以及为什么 Agent 经济不能建立在赤裸的形容词之上。

一 CPU 一票给了我们一种货币,其声明任何人都可以检查。下一个记录系统是认知本身。上面的堆栈就是如何让它变得可检查——层层递进,机制接机制,直到"模型说了 X"本身就是一张可验证的收据。

  • 原文链接: x.com/ProjectZKM/status/...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~

相关文章

0 条评论