LLM 审稿密码学论文时

zksecurity
发布于 2026-02-11 19:47
阅读 70

文章介绍了 Google Research 使用 Gemini 作为“对抗式审稿人”发现密码学论文漏洞的案例：一篇关于从 LWE 构造 SNARGs for NP 的论文在发表后不久被发现存在缺陷，作者随后修正并撤回了核心结论。文章重点分析了 LLM 的迭代自我纠错式审稿流程，以及这种方法在学术研究和密码学审计中的潜力与局限，同时讨论了 false positive、不同模型/人格协作等值得继续验证的问题。

Google Research 最近发布了一组关于 [使用 Gemini 加速科学研究](https://arxiv.org/pdf/2602.03837) 的案例研究。
这份 150 页的文档探讨了多种技术，包括将 LLM 作为对抗性审稿人。

令我惊讶的是，这项特定技术的案例研究涉及的是密码学。
而且不是一般的密码学，而是 SNARGs！
因为这件事和我的研究领域太接近了，下面是我对事情经过以及 LLM 如何发现一篇密码学论文中人类遗漏的 bug 的简要总结。

## 背景：论文和时间线

我们要看的论文由 Ziyi Guan 和 Eylon Yogev 撰写，原题为 [SNARGs for NP from LWE](https://t.co/SHk1xfzvPz)。
让我快速拆解一下这个标题：

- SNAR **G**（succinct non-interactive argument）和 SNAR **K**（succinct non-interactive argument of knowledge）基本上是同一类东西，只是前者的安全性略弱一些。它们比 SNARKs 更容易构造，这使它们成为我们研究如何构造 SNARKs 时一个有用的跳板。
- NP 是复杂性理论学家用来描述“可以在现实世界硬件上运行的计算”的说法。
- LWE 代表 _learning with errors_。它是我们用来构造 lattice-based cryptography 的基础假设之一，并且被认为能够抵抗量子计算机。重要的是，它是一个可证伪的假设[1](https://blog.zksecurity.xyz/posts/llms-in-research/#fn:falsifiable)。

SNARGs for NP from LWE 是一个重要结果！
到目前为止，我们只知道如何在理想化模型中（比如基于 hash 的证明中的 random oracle model）为 NP 构造 SNARGs，或者使用不可证伪的假设（比如 Groth16 中的 knowledge of exponent assumption），或者使用非常强大但无法实现的密码学（比如 indistinguishability obfuscation）。
该结果发表在 ePrint 上，已在 [X 上宣布](https://x.com/ziyiguan99/status/2005585599995302007)，并受到社区庆祝。

不幸的是，这场庆祝并没有持续太久。
几天后，Ziyi [在 X 上宣布](https://x.com/ziyiguan99/status/2007090096974246235) 论文中发现了一个 bug，而且她和 Eylon 都不知道该如何修复它。
他们最终 [更新了论文](https://x.com/ziyiguan99/status/2013628807958196296)，删除了“从 LWE 构造 NP 的 SNARGs”这一主张，但保留了其余部分的结果。

我原以为故事到这里就结束了。
直到我偶然翻到 Google Research 的文档，看到 Ziyi 和 Eylon 也是共同作者。
原来，这个 bug 是用 Gemini 发现的，而这一发现记录在 Google Research 文档的第 3.2 节中。

## LLM 提示策略

虽然我不会在这篇文章里讨论这个 bug 到底是什么，但我确实想看看这个 bug 是如何被发现的，以及 LLM 是如何被引导完成这件事的。
总体策略就是此前被称为 [LLM-as-a-Judge](https://arxiv.org/abs/2411.15594) 的方法。
不过，正如你可能预料到的那样，这个 prompt 远不只是简单地让 LLM“检查这篇论文是否正确”。

相反，作者实现了他们所谓的“严格的 **迭代自我纠正 prompt**”。
本质上，这是一个两轮循环：让模型审查论文，再审查它自己的审查结果。
下面的图取自 Google Research 论文，详细说明了这一提示策略：

![迭代自我纠正 prompt。图取自 Google Research 论文。](https://img.learnblockchain.cn/2026/04/21/prompt.png)

不幸的是，所使用的具体模型和“rigor text”并未公开。
另一个有趣的点是，报告指出 LLM 产生了“noise”，换句话说，它也标记了一些相关性较低的问题。
然而，报告并没有明确说明 LLM 的输出是否也包含 false positives。

## LLM 在学术研究中的应用

最近，我的同事 [Yoichi 使用 LLM](https://learnblockchain.cn/article/25134/) 在 Lean 中形式化了我的一篇 [近期论文](https://eprint.iacr.org/2025/1993)。
这一成果的成功凸显了学术研究中一个非常令人兴奋的方向：只要我们能把自己的想法和证明清楚地写在纸上，就可以借助 LLM 走完最后一公里，写出经过形式化验证的证明。

另一方面，这意味着会议很快就会被 AI 辅助投稿淹没，而且可能没有时间核验所有提交的工作。
Google Research 报告中的例子给了我们一个潜在的解决方案：使用 LLM 进行审稿。

虽然我很高兴这个具体案例研究效果不错（而且还涉及我感兴趣的话题！），但我也很好奇它在更一般的场景下是否同样适用。
这种技术在大样本论文上是否可靠？
false-positive rate 是多少？
无论如何，在这个时代使用这些工具都非常令人兴奋，我也很高兴大型团队能在如此全面的报告中分享他们的发现。

## LLM 在审计中的应用

值得注意的是，我们 ZKSecurity 也一直在审计中使用这些方法。
我们最近发布的工具 [zkao](https://learnblockchain.cn/article/25132/) 自动化了其中很多工作。
第一轮 agents 会审查代码库并报告他们的发现。
然后我们再让第二轮 agents 去审查这些发现。
通过定义 zkao workflows，这个反馈循环可以运行多次。
这个工具还能做更多事情，我鼓励你们 [进一步了解它](https://learnblockchain.cn/article/25132/) 并注册早期访问。

在我们的测试中，我们发现，当审查轮次由不同 personality/agent 执行时，LLM-as-a-Judge 会更有效。
同样，使用不同的模型相互审查彼此的工作似乎也更有效。
为什么会这样，或者这种情况是否真的存在，目前仍然未知，也仍然是值得继续实验的方向。

## 致谢

感谢 [David](https://x.com/cryptodavidw) 审阅这篇文章，并分享了关于在 zkao 中使用 LLM-as-a-Judge 的更多见解。

* * *

1. 简化地说，如果一个假设可以通过计算方法证明其为假（ _例如_，构造一个解决某个问题的高效算法），我们就说它是可证伪的。相比之下，不可证伪的假设无法用这种方式测试。我们更倾向于使用可证伪的假设，因为基于迄今为止还没有人攻破它这一事实，我们可以对它“有多真实”形成一种感觉。[↩](https://blog.zksecurity.xyz/posts/llms-in-research/#fnref:falsifiable "Jump back to footnote 1 in the text")

**zkSecurity** 提供密码学系统的审计、研究和开发服务，包括零知识证明、MPCs、FHE 和共识协议。

[了解更多 →](https://zksecurity.xyz/)

>- 原文链接： [blog.zksecurity.xyz/post...](https://blog.zksecurity.xyz/posts/llms-in-research)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

Google Research 最近发布了一组关于使用 Gemini 加速科学研究的案例研究。这份 150 页的文档探讨了多种技术，包括将 LLM 作为对抗性审稿人。

令我惊讶的是，这项特定技术的案例研究涉及的是密码学。而且不是一般的密码学，而是 SNARGs！因为这件事和我的研究领域太接近了，下面是我对事情经过以及 LLM 如何发现一篇密码学论文中人类遗漏的 bug 的简要总结。

背景：论文和时间线

我们要看的论文由 Ziyi Guan 和 Eylon Yogev 撰写，原题为 SNARGs for NP from LWE。让我快速拆解一下这个标题：

SNAR G（succinct non-interactive argument）和 SNAR K（succinct non-interactive argument of knowledge）基本上是同一类东西，只是前者的安全性略弱一些。它们比 SNARKs 更容易构造，这使它们成为我们研究如何构造 SNARKs 时一个有用的跳板。
NP 是复杂性理论学家用来描述“可以在现实世界硬件上运行的计算”的说法。
LWE 代表 learning with errors。它是我们用来构造 lattice-based cryptography 的基础假设之一，并且被认为能够抵抗量子计算机。重要的是，它是一个可证伪的假设1。

SNARGs for NP from LWE 是一个重要结果！到目前为止，我们只知道如何在理想化模型中（比如基于 hash 的证明中的 random oracle model）为 NP 构造 SNARGs，或者使用不可证伪的假设（比如 Groth16 中的 knowledge of exponent assumption），或者使用非常强大但无法实现的密码学（比如 indistinguishability obfuscation）。该结果发表在 ePrint 上，已在 X 上宣布，并受到社区庆祝。

不幸的是，这场庆祝并没有持续太久。几天后，Ziyi 在 X 上宣布论文中发现了一个 bug，而且她和 Eylon 都不知道该如何修复它。他们最终更新了论文，删除了“从 LWE 构造 NP 的 SNARGs”这一主张，但保留了其余部分的结果。

我原以为故事到这里就结束了。直到我偶然翻到 Google Research 的文档，看到 Ziyi 和 Eylon 也是共同作者。原来，这个 bug 是用 Gemini 发现的，而这一发现记录在 Google Research 文档的第 3.2 节中。

LLM 提示策略

虽然我不会在这篇文章里讨论这个 bug 到底是什么，但我确实想看看这个 bug 是如何被发现的，以及 LLM 是如何被引导完成这件事的。总体策略就是此前被称为 LLM-as-a-Judge 的方法。不过，正如你可能预料到的那样，这个 prompt 远不只是简单地让 LLM“检查这篇论文是否正确”。

相反，作者实现了他们所谓的“严格的 迭代自我纠正 prompt”。本质上，这是一个两轮循环：让模型审查论文，再审查它自己的审查结果。下面的图取自 Google Research 论文，详细说明了这一提示策略：

不幸的是，所使用的具体模型和“rigor text”并未公开。另一个有趣的点是，报告指出 LLM 产生了“noise”，换句话说，它也标记了一些相关性较低的问题。然而，报告并没有明确说明 LLM 的输出是否也包含 false positives。

LLM 在学术研究中的应用

最近，我的同事 Yoichi 使用 LLM 在 Lean 中形式化了我的一篇近期论文。这一成果的成功凸显了学术研究中一个非常令人兴奋的方向：只要我们能把自己的想法和证明清楚地写在纸上，就可以借助 LLM 走完最后一公里，写出经过形式化验证的证明。

另一方面，这意味着会议很快就会被 AI 辅助投稿淹没，而且可能没有时间核验所有提交的工作。 Google Research 报告中的例子给了我们一个潜在的解决方案：使用 LLM 进行审稿。

虽然我很高兴这个具体案例研究效果不错（而且还涉及我感兴趣的话题！），但我也很好奇它在更一般的场景下是否同样适用。这种技术在大样本论文上是否可靠？ false-positive rate 是多少？无论如何，在这个时代使用这些工具都非常令人兴奋，我也很高兴大型团队能在如此全面的报告中分享他们的发现。

LLM 在审计中的应用

值得注意的是，我们 ZKSecurity 也一直在审计中使用这些方法。我们最近发布的工具 zkao 自动化了其中很多工作。第一轮 agents 会审查代码库并报告他们的发现。然后我们再让第二轮 agents 去审查这些发现。通过定义 zkao workflows，这个反馈循环可以运行多次。这个工具还能做更多事情，我鼓励你们进一步了解它并注册早期访问。

在我们的测试中，我们发现，当审查轮次由不同 personality/agent 执行时，LLM-as-a-Judge 会更有效。同样，使用不同的模型相互审查彼此的工作似乎也更有效。为什么会这样，或者这种情况是否真的存在，目前仍然未知，也仍然是值得继续实验的方向。