本文探讨了2026年AI智能合约审计工具的现状,指出大多数商用工具误报率高、存在盲点。作者主张自行构建AI审计代理,以真正理解其能力边界并打造实用工具。文章详细介绍了四种有效架构:框架驱动检测、多阶段代理管道、污点分析混合和图协议推理,并给出了构建指南中的关键步骤:选择检测策略、验证方法、误报过滤器、工具集成和编排。还介绍了AI审计竞技场,基于10个真实Code4rena竞赛的118个发现进行基准测试。文章强调,通过自行构建和基准测试,可以识别工具的优劣,最终获得生产级工具。
如今你能买到的大多数 AI 审计员都会遗漏基本的重入漏洞。自己构建一个,是理解这一类别——并交付一个真正有效的工具——的唯一途径。
到 2026 年,AI 审计员已经从研究趣闻转变为嵌入主要审计公司工作流程的付费工具。质量水平参差不齐。有些工具效果不错——能以合理的误报率捕捉整类漏洞。另一些则只是 LLM 封装器,进行语法模式匹配并幻觉出并不存在的发现。
每家大型审计公司都有这样的故事:AI 工具遗漏了一个关键漏洞,却被初级审计员通过阅读代码逮住了。而每个在生产中部署过 AI 审计工具的团队也都有过误报率过高,以至于训练人类审查员完全忽略其输出的经历。
这就是该类别目前的状况。它正在快速扩张,天花板是真实存在的,但你无法通过阅读落地页来判断哪个工具是有效的。自己构建一个,是你能够:
在构建之前,你需要知道自己在优化什么。AI 审计中最难的问题是误报。一个标记出 100 个问题但其中 80 个是噪音的工具比无用更糟糕——它浪费人类审查员的时间,并训练团队忽略其输出。
一个好的 AI 审计员应该具备:
这些特性并非来自更大的模型。它们来自架构——你如何构建检测管道、向模型输入什么、如何验证输出,以及如何过滤噪音。
经过 2025 和 2026 年,有几种架构被证明始终优于单提示 LLM 审计:
你不是问 LLM “在这个合约中找漏洞”,而是交给它一个特定的漏洞框架——一个包含 100 多项具体安全检查的清单,这些检查来自于过去的审计发现。针对每项检查,LLM 评估代码是否匹配该漏洞模式。
多个专门的 Agent 处理不同阶段:一个负责侦察(理解协议),一个负责检测(扫描模式),一个负责验证(检查候选发现是否真的可利用),一个负责分类(严重性分配)。每个 Agent 专注其任务;输出是高质量的信号。
传统的 静态分析 工具(如 Slither)可以低成本地识别可疑模式。然后 LLM 评估每个可疑点是否真的可利用,利用传统工具无法做到的自然语言推理能力。
构建协议的图表示——哪些函数调用哪些函数,它们修改了什么状态变量,进行了哪些外部调用。Agent 在图结构上推理以发现跨函数漏洞(跨两个函数的重入,在一个路径更新但在另一个路径未更新的状态)。
每种架构都有权衡。Zealynx Academy 的 AI 审计员构建器 会引导你走过其中的 3-4 条路径,展示每条路径优化的目标,并让你根据目标用例进行选择。
Academy 的 AI 审计员构建器是一个多步骤的互动指南。你会逐步完成每个阶段,做出具体的设计选择,指南会为你提供构建模块。
从上述选项中选择架构。你的选择决定了后续路径——框架驱动的 Agent 需要检查清单;Agent 管道需要编排;污点混合需要静态分析器。
每个候选发现都需要验证。选项:
没有积极的过滤,AI 审计员会用噪音淹没审查员。过滤策略:
配置 Agent 能做什么:读取源文件、运行静态分析、执行测试、查询文档、获取链上数据。每个工具集成都有成本(延迟、复杂性),但也开启了一种能力(实际验证漏洞 vs 猜测)。
如果你选择了 Agent 管道,你需要编排——Agent 之间如何通信、状态如何共享、错误如何传播。Claude Code 技能 是构建方式之一。LangGraph 是另一种。自定义代码是第三种。
到指南结束时,你会有完整的架构、记录的决策以及实现所需的脚手架。实现工作在 Claude Code 或你喜欢的任何 Agent 框架中进行——Academy 不会锁定你。
构建工作只完成了一半。基准测试告诉你 Agent 是否有效。
AI 审计员竞技场 包含 10 个真实的 Code4rena 竞赛,其中 118 个官方发现已作为真实结果载入。你将 Agent 指向竞赛的代码库,运行它,就能得到一个得分:
评分是诚实的,因为答案集是公开的。如果另一个团队的 Agent 得分比你高,说明他们构建了更好的系统。你无法通过营销话术来获得更好的分数。
这 10 个竞赛涵盖:DEX/AMM 协议、借贷协议、桥、NFT 市场、质押系统。这种多样性迫使你的 Agent 具备泛化能力——针对 Uniswap V2 分叉优化过的 Agent 在 DEX 目标上表现很好,但在借贷上表现不佳。一个泛化良好的 Agent 在所有类别上都表现尚可。
公开排行榜展示了不同架构的表现。这是目前评估 AI 审计工具的唯一公平方式。营销话术毫无成本,而基于 Code4rena 的得分是挣来的。
Academy 的 AI 审计员构建器能够产出有用工具而非玩具,原因如下:
你在权衡中学习。 指南迫使你在每个阶段做出决策。每个决策都有后果。当你的 Agent 在某个类别上表现不佳时,你会明白是哪个早期决策导致了差距。
真实结果是真实的。 针对 118 个真实 Code4rena 发现的基准测试不同于针对手工编制测试集的基准测试。真实漏洞包括那些没人预料到的,而不仅仅是基准测试编制者记得包含的类别。
失败模式是可见的。 当你的 Agent 遗漏了一个关键发现时,你可以阅读竞赛的官方报告,理解为什么你的架构遗漏了它。这为下一次迭代提供信息。
没有平台锁定。 指南教授架构;实现在你偏好的任何框架中进行。如果你的环境是 Claude Code,就在那里构建。如果是 LangGraph,就在那里构建。如果你想自己动手,也可以。
AI 审计员 Agent 构建器位于 Zealynx Academy 的其他三大支柱旁边:
每个支柱互相加强。在构建了 AI 审计员之后,你会以不同的眼光看待暗影竞技场——你会注意到你的 Agent 会捕捉和不会捕捉哪些类型的漏洞。在完成暗影竞技场之后,你会理解哪些类别的发现是 AI Agent 值得瞄准的高价值目标。它们互相叠加。
这不是一个周末项目,但也不是一个 6 个月的研发项目。一周的专注工作能让你得到一个可工作的 Agent。一个月的迭代能让你得到生产级工具。
Zealynx Academy 是 Giveth 以太坊安全 QF 轮 的一部分,由 TheDAO 安全基金的 500 ETH 匹配池支持。该轮次于 2026 年 4 月 21 日至 5 月 12 日运行。AI 审计员竞技场是 QF 轮资金帮助扩展的部分之一——更多竞赛、更多目标协议、更严格的基准测试。如果你正在构建 AI 安全工具并关心工具生态的改进,一位新支持者的 5 美元捐赠比一位支持者的 500 美元捐赠的复合效应要大得多。完整的捐赠指南和链接在此。
如今你能买到的大多数 AI 审计员 Agent 并不如其营销所言那么好。要知道哪些有效,唯一的方法就是用真实发现对其进行基准测试。要交付一个适合你用例的有效工具,唯一的方法是自己构建。
Zealynx Academy 的 AI 审计员构建器是一条结构化的路径,从“我想构建一个能审计 Solidity 的 AI”到“我有一个能捕捉真实漏洞的可工作 Agent”。互动指南使权衡变得明确。竞技场针对真实的公开竞赛进行基准测试。这一切都是免费的。
开始构建:academy.zealynx.io/ai-agents/security/build-ai-auditor
基准测试:AI 审计员竞技场
完整平台:Zealynx Academy 已公开
我需要 LLM API 积分才能使用 AI 审计员构建器吗?
对于互动指南本身,不需要——Academy 在不运行模型的情况下引导你做出决策。对于实现阶段,你使用你喜欢的任何环境。Claude Code 使用你现有的 Claude 订阅(无每次查询的 API 成本)。LangGraph 和自定义设置可能根据你的选择使用 OpenAI、Anthropic API 或自托管模型。
哪种架构最好?
取决于你的目标用例。框架驱动的 Agent 误报率最低,但会遗漏新漏洞——最适合 CI/CD 部署,因为噪音成本高。Agent 多阶段管道产出最优质的发现,但速度慢且成本高——最适合审计前的深度审查。污点混合速度快且成本低——最适合初始扫描。没有单一的赢家;指南会根据你将 Agent 部署在哪里来帮助你选择。
竞技场的评分如何将我的 Agent 与其他人进行比较?
竞技场中的每个竞赛都有已知的答案集(原始的 Code4rena 发现)。你的 Agent 的得分是真正例(与答案集匹配的数量)减去假正例惩罚,并按严重性加权。不同的架构表现出不同的模式——针对 DEX 漏洞优化的工具在 AMM 竞赛上得分高,在借贷上得分低。公开排行榜 展示了不同方法的位置。
如果我不是安全研究员,这对我有用吗?
有用。构建一个 AI 审计员教你 AI 在安全方面能做什么和不能做什么——这对于任何做 AI 工具决策的人来说都是有用的思维模型。部署代码的开发者会受益,因为他们理解 AI 审计可能捕捉到什么。工程经理会受益,因为他们能够以对该类别有扎实理解的方式来评估 AI 审计供应商。
如果我的 Agent 遗漏了一个 Critical 发现会怎样?
那是礼物,不是失败。竞技场会显示遗漏了哪个发现,并链接到原始的 Code4rena 报告。你阅读漏洞,理解你的架构遗漏了什么,然后迭代。大多数生产级 AI 审计员都是通过运行这个循环数百次才变好的。
构建器是否包含 Krait?
Krait 是 Zealynx Security 的生产级 AI 审计员,构建在 Claude Code 技能之上。Academy 的 AI 审计员构建器在你可遵循的架构中包含了一条 Krait 风格的路径——你也可以阅读 Krait 的开源技能定义作为参考。如果你想构建直接扩展或分叉 Krait 的东西,Academy 是首先理解其基础的结构化路径。
| 术语 | 定义 |
|---|---|
| AI 审计员 | 旨在自动检测智能合约漏洞的 AI 系统。范围从简单的 LLM 提示到完整的 Agent 管道。 |
| Agent AI | 由一个或多个 Agent 组成的 AI 系统,能够自主规划、推理并使用工具采取行动,通常在循环中直到目标达成。 |
| 大语言模型 | 一类在大型文本语料库上训练的 AI 模型,能够遵循自然语言指令。GPT、Claude 和 Gemini 系列是例子。 |
| Claude Code | Anthropic 的 Agent 编码环境。作为 CLI 或 IDE 集成运行,具有用于特定领域工作流的技能系统。 |
| 静态分析 | 在不执行代码的情况下进行的程序分析,检查源代码或字节码中的漏洞模式。Slither 和 Aderyn 是例子。 |
- 原文链接: zealynx.io/blogs/ai-audi...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!
作者暂未设置收款二维码