OpenAI 与 Paradigm 合作推出了 EVMbench,这是一个评估 AI 代理检测、修补和利用智能合约漏洞能力的基准。EVMbench 包含 120 个来自 40 个审计的漏洞,旨在衡量 AI 模型在网络安全任务中的能力,并鼓励使用 AI 系统来审计和加强已部署的合约,同时 OpenAI 也宣布投入 1000 万美元的 API 额度用于加速网络防御。
通过评估 AI 代理在区块链环境中检测、修补和利用漏洞的能力,使智能合约更安全。
智能合约通常保护价值超过 1000 亿美元的开源加密资产。随着 AI 代理在读取、编写和执行代码方面的能力不断提高,衡量它们在具有经济意义的环境中的能力,并鼓励以防御方式使用 AI 系统来审计和加强已部署的合约变得越来越重要。
我们与 Paradigm(opens in a new window) 合作,推出了 EVMbench,这是一个评估 AI 代理检测、修补和利用高危智能合约漏洞的能力的基准。EVMbench 利用了来自 40 次审计的 120 个精心挑选的漏洞,其中大部分来自开放代码审计竞赛。此外,EVMbench 还包括来自 Tempo(opens in a new window) 区块链安全审计过程中的几个漏洞场景,Tempo 是一种专门构建的 L1,旨在通过稳定币实现高吞吐量、低成本支付。这些场景将基准扩展到面向支付的智能合约代码,我们预计 agentic 稳定币支付将在该领域增长,并有助于将其扎根于新兴的实际重要性领域。
为了创建我们的任务环境,我们改编了现有的概念验证漏洞利用测试和部署脚本(如果存在),否则手动编写了它们。对于修补模式,我们确保漏洞可被利用,并且可以在不引入破坏编译的更改的情况下进行缓解,否则会危及我们的设置。对于漏洞利用模式,我们编写了自定义评分器,并对环境进行了红队测试,试图找到并修补代理可能欺骗评分器的方法。除了 Paradigm 提供的领域专业知识进行任务质量控制外,我们还使用自动化的任务审计代理来帮助提高环境的可靠性。
EVMbench 评估三种能力模式:
为了支持客观和可重复的评估,我们开发了一个基于 Rust 的工具,该工具部署合约、确定性地重放代理交易并限制不安全的 RPC 方法。漏洞利用任务在隔离的本地 Anvil 环境中运行,而不是在实时网络上运行,并且漏洞是历史性的且公开记录的。
我们评估了所有三种模式中的前沿代理。在 “利用 (exploit)” 模式中,通过 Codex CLI 运行的 GPT‑5.3‑Codex 获得了 72.2% 的分数。这比之前的模型(如 GPT‑5)有了显着提高,后者得分为 31.9%,并且仅在六个月前发布。检测召回率和修补成功率仍然低于完全覆盖率,因为很大一部分漏洞对于代理来说仍然难以找到和修复。
EVMbench 还揭示了跨任务的模型行为的有趣差异。代理在漏洞利用设置中表现最佳,因为该目标是明确的:继续迭代直到资金耗尽。相比之下,检测和修补任务的性能较弱。在 “检测 (detect)” 中,代理有时会在识别出单个问题后停止,而不是详尽地审计代码库。在 “修补 (patch)” 中,在删除细微漏洞的同时保持全部功能仍然具有挑战性。
EVMbench 并不能代表现实世界中智能合约安全性的全部难度。所包含的漏洞来自 Code4rena 审计竞赛。虽然这些漏洞是真实且高危的,但许多大量部署和广泛使用的加密合约会受到更多的审查,并且可能更难利用。
我们的评分系统是稳健的,但并不完善。在 “检测 (detect)” 模式中,我们检查代理是否找到了人工审计员识别出的相同漏洞。如果代理识别出其他问题,我们目前没有可靠的方法来确定它们是代表人工遗漏的真实漏洞还是误报。
在 “利用 (exploit)” 设置中也存在结构性限制。交易在评分容器中按顺序重放,因此取决于精确计时机制的行为不在范围内。链状态是一个干净的本地 Anvil 实例,而不是主网的一个分支,并且我们目前仅支持单链环境。在某些情况下,这需要模拟合约而不是主网部署。
智能合约保护着数十亿美元的资产,而 AI 代理可能会对攻击者和防御者都产生变革性的影响。衡量模型在该领域的能力有助于跟踪新兴的网络风险,并强调以防御方式使用 AI 系统来审计和加强已部署的合约的重要性。
EVMbench 既是一种测量工具,也是一种行动号召。随着代理的改进,对于开发人员和安全研究人员来说,将 AI 辅助审计纳入他们的工作流程变得越来越重要。
最近几个月,我们在网络安全任务的模型性能方面看到了有意义的提升,这使开发人员和安全专业人员都受益。与此同时,我们一直在 准备加强网络安全保护措施,以支持防御性使用和更广泛的生态系统弹性。
由于网络安全本质上是双重用途的,因此我们正在采取一种基于证据的迭代方法,该方法可以加快防御者查找和修复漏洞的能力,同时减缓滥用。我们的缓解措施包括安全培训、自动化监控、高级功能的可信访问 以及包括威胁情报在内的执行管道。
我们正在投资生态系统保护措施,例如扩展 Aardvark(我们的安全研究代理)的私人测试版,并与开源维护者合作,为广泛使用的项目提供免费的代码库扫描。
在 2023 年启动的网络安全资助计划的基础上,我们还将投入 1000 万美元的 API 积分,以利用我们最强大的模型加速网络防御,特别是对于开源软件和关键基础设施系统。从事善意安全研究的组织可以通过我们的 网络安全资助计划 申请 API 积分和支持。
我们发布 EVMbench 的任务、工具和评估框架,以支持对衡量和管理新兴 AI 网络能力的持续研究。
- 原文链接: openai.com/index/introdu...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!