LLM 审稿密码学论文时

文章介绍了 Google Research 使用 Gemini 作为“对抗式审稿人”发现密码学论文漏洞的案例:一篇关于从 LWE 构造 SNARGs for NP 的论文在发表后不久被发现存在缺陷,作者随后修正并撤回了核心结论。文章重点分析了 LLM 的迭代自我纠错式审稿流程,以及这种方法在学术研究和密码学审计中的潜力与局限,同时讨论了 false positive、不同模型/人格协作等值得继续验证的问题。

Google Research 最近发布了一组关于 使用 Gemini 加速科学研究 的案例研究。 这份 150 页的文档探讨了多种技术,包括将 LLM 作为对抗性审稿人。

令我惊讶的是,这项特定技术的案例研究涉及的是密码学。 而且不是一般的密码学,而是 SNARGs! 因为这件事和我的研究领域太接近了,下面是我对事情经过以及 LLM 如何发现一篇密码学论文中人类遗漏的 bug 的简要总结。

背景:论文和时间线

我们要看的论文由 Ziyi Guan 和 Eylon Yogev 撰写,原题为 SNARGs for NP from LWE。 让我快速拆解一下这个标题:

  • SNAR G(succinct non-interactive argument)和 SNAR K(succinct non-interactive argument of knowledge)基本上是同一类东西,只是前者的安全性略弱一些。它们比 SNARKs 更容易构造,这使它们成为我们研究如何构造 SNARKs 时一个有用的跳板。
  • NP 是复杂性理论学家用来描述“可以在现实世界硬件上运行的计算”的说法。
  • LWE 代表 learning with errors。它是我们用来构造 lattice-based cryptography 的基础假设之一,并且被认为能够抵抗量子计算机。重要的是,它是一个可证伪的假设1

SNARGs for NP from LWE 是一个重要结果! 到目前为止,我们只知道如何在理想化模型中(比如基于 hash 的证明中的 random oracle model)为 NP 构造 SNARGs,或者使用不可证伪的假设(比如 Groth16 中的 knowledge of exponent assumption),或者使用非常强大但无法实现的密码学(比如 indistinguishability obfuscation)。 该结果发表在 ePrint 上,已在 X 上宣布,并受到社区庆祝。

不幸的是,这场庆祝并没有持续太久。 几天后,Ziyi 在 X 上宣布 论文中发现了一个 bug,而且她和 Eylon 都不知道该如何修复它。 他们最终 更新了论文,删除了“从 LWE 构造 NP 的 SNARGs”这一主张,但保留了其余部分的结果。

我原以为故事到这里就结束了。 直到我偶然翻到 Google Research 的文档,看到 Ziyi 和 Eylon 也是共同作者。 原来,这个 bug 是用 Gemini 发现的,而这一发现记录在 Google Research 文档的第 3.2 节中。

LLM 提示策略

虽然我不会在这篇文章里讨论这个 bug 到底是什么,但我确实想看看这个 bug 是如何被发现的,以及 LLM 是如何被引导完成这件事的。 总体策略就是此前被称为 LLM-as-a-Judge 的方法。 不过,正如你可能预料到的那样,这个 prompt 远不只是简单地让 LLM“检查这篇论文是否正确”。

相反,作者实现了他们所谓的“严格的 迭代自我纠正 prompt”。 本质上,这是一个两轮循环:让模型审查论文,再审查它自己的审查结果。 下面的图取自 Google Research 论文,详细说明了这一提示策略:

迭代自我纠正 prompt。图取自 Google Research 论文。

不幸的是,所使用的具体模型和“rigor text”并未公开。 另一个有趣的点是,报告指出 LLM 产生了“noise”,换句话说,它也标记了一些相关性较低的问题。 然而,报告并没有明确说明 LLM 的输出是否也包含 false positives。

LLM 在学术研究中的应用

最近,我的同事 Yoichi 使用 LLM 在 Lean 中形式化了我的一篇 近期论文。 这一成果的成功凸显了学术研究中一个非常令人兴奋的方向:只要我们能把自己的想法和证明清楚地写在纸上,就可以借助 LLM 走完最后一公里,写出经过形式化验证的证明。

另一方面,这意味着会议很快就会被 AI 辅助投稿淹没,而且可能没有时间核验所有提交的工作。 Google Research 报告中的例子给了我们一个潜在的解决方案:使用 LLM 进行审稿。

虽然我很高兴这个具体案例研究效果不错(而且还涉及我感兴趣的话题!),但我也很好奇它在更一般的场景下是否同样适用。 这种技术在大样本论文上是否可靠? false-positive rate 是多少? 无论如何,在这个时代使用这些工具都非常令人兴奋,我也很高兴大型团队能在如此全面的报告中分享他们的发现。

LLM 在审计中的应用

值得注意的是,我们 ZKSecurity 也一直在审计中使用这些方法。 我们最近发布的工具 zkao 自动化了其中很多工作。 第一轮 agents 会审查代码库并报告他们的发现。 然后我们再让第二轮 agents 去审查这些发现。 通过定义 zkao workflows,这个反馈循环可以运行多次。 这个工具还能做更多事情,我鼓励你们 进一步了解它 并注册早期访问。

在我们的测试中,我们发现,当审查轮次由不同 personality/agent 执行时,LLM-as-a-Judge 会更有效。 同样,使用不同的模型相互审查彼此的工作似乎也更有效。 为什么会这样,或者这种情况是否真的存在,目前仍然未知,也仍然是值得继续实验的方向。

致谢

感谢 David 审阅这篇文章,并分享了关于在 zkao 中使用 LLM-as-a-Judge 的更多见解。


  1. 简化地说,如果一个假设可以通过计算方法证明其为假( 例如,构造一个解决某个问题的高效算法),我们就说它是可证伪的。相比之下,不可证伪的假设无法用这种方式测试。我们更倾向于使用可证伪的假设,因为基于迄今为止还没有人攻破它这一事实,我们可以对它“有多真实”形成一种感觉。

zkSecurity 提供密码学系统的审计、研究和开发服务,包括零知识证明、MPCs、FHE 和共识协议。

了解更多 →

  • 原文链接: blog.zksecurity.xyz/post...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
zksecurity
zksecurity
Security audits, development, and research for ZKP, FHE, and MPC applications, and more generally advanced cryptography.