TFHE 密文 Bootstrapping 耗时低于 1 毫秒

  • ZamaFHE
  • 发布于 4小时前
  • 阅读 50

Zama 团队宣布在 GPU 上实现了 TFHE bootstrapping 的重大突破,将 4 比特消息的延迟降低到微秒级别,同时保持了相同的安全级别和失败概率。他们通过优化算法和利用 GPU 资源,显著提高了 bootstrapping 的速度,使得 FHE 在实际应用中更具可行性,尤其是在区块链领域。

请系好安全带。Zama 团队很高兴地宣布,我们已经突破了 TFHE 引导的 1 毫秒障碍;对于 4 位消息,GPU 上的延迟现在以微秒为单位进行衡量,同时保持相同的安全级别和失效概率。 在这篇博文中,我们将回顾我们为达到这个里程碑所取得的进展。

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。 这得益于一种名为引导的特殊操作。 它是主要的性能瓶颈:为了使 FHE 得到广泛应用,必须将其延迟和吞吐量推向极限。 只有这样,加密数据的计算才能达到类似于明文计算的延迟和吞吐量。

在 Zama,我们致力于加速 TFHE 可编程引导。 它是 TFHE-rs 中所有操作的核心:它不仅可以重置密文中的噪声,还可以将函数应用于密文。 这对于在加密数据上构建通用算术非常强大。

Zama 的第一个引导实现在 CPU 上耗时 53 毫秒,具有 128 位的安全性和 2-128 的 4 位消息失败概率。 今天,我们很高兴地宣布,我们已经突破了 1 毫秒的界限,并且对于 4 位消息,GPU 上的 TFHE 引导延迟现在以微秒为单位进行衡量,同时保持相同的安全级别和失效概率。 让我们回到过去,看看这是如何发生的。

加速引导

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。 这得益于一种名为引导的特殊操作。 该操作由 Craig Gentry 于 2009 年发明,依赖于基于格的密码学:主要思想是同态评估解密电路。 当时,估计需要长达 30 分钟才能完成计算。

2018 年,在之前的名为 FHEW 的方案之后,引入了 TFHE 引导 [Chillotti2020]。 与大多数其他 FHE 方案一样,一个引导一次处理数千条消息,但是当你只需要引导一个或几个消息时,你仍然需要为整个批次付出代价。 然而,TFHE 引导的延迟非常好:正如引言中提到的,Zama 的第一个引导实现花费了 53 毫秒。

为了使 FHE 计算变得无缝,引导的延迟和吞吐量都必须尽可能接近明文计算。 TFHE 为单个或少量引导打开了低延迟的大门,这在以前是不可能的。

Zama 几乎从一开始就致力于 TFHE 引导的 GPU 加速,并坚信有一种方法可以使其在 GPU 上更快。 引导算法是高度顺序的,这使得它非常不适合 GPU。 尽管如此,引导时间还是逐渐减少了。 2024 年,一个 TFHE 引导在一个 H100 GPU 上仅花费 2 毫秒,比最初在 CPU 上的测量快 26 倍。

这得益于使用 TFHE 引导的替代算法:多位算法 [Zhou2018][Joye2022],该算法提供更多的并行性。 该算法也可以在 CPU 上实现以获得更好的延迟,但是吞吐量会大大降低。 在 GPU 上,该算法非常适合,因为它可以在显着降低延迟的同时保持吞吐量。 在首次实现之后,实施了许多底层优化,以充分利用 GPU 资源并最大程度地提高并行性。 性能逐渐提高。

在 2021 年至 2024 年之间,安全级别发生了变化:TFHE-rs 现在是 IND-CPAD 安全的,但在 2021 年,Concrete 仅是 IND-CPA 安全的,因为相关的攻击尚未可知。 使用 128 位安全性覆盖 IND-CPAD 攻击需要更改密码参数并引入新技术来缓解攻击 [Bernard2025, Ruijter2025]。 这对性能产生了很大的影响,并通过优化和新的密码学技术来降低引导后的噪声水平来缓解。

尽管如此,2 毫秒仍然太慢了。 在过去的几个月中,Zama 的 GPU 团队一直致力于进一步提高引导性能。 特别是,引入了一种在编译时专门针对区块链密码参数的实现。 在编译时知道更多变量可以减少 GPU 中的寄存器压力,并且将其与微调的优化相结合,可以实现显着的性能改进。

现在,在具有 128 位 IND-CPAD 安全性的一个 GPU 上,引导大约需要 800 微秒。

该引导加密两位消息以处理布尔值并使用高斯噪声:这被认为是文献中的参考。 实际上,在 TFHE-rs 中,使用 TUniform 噪声分布加密 4 位消息的引导程序用于区块链:使用这些参数,引导程序需要 945 微秒。

基准

以下是当前 GPU 引导实现与 2021 年原始 CPU 实现的比较。参数用于 IND-CPAD 安全性,即 128 位安全性和 2-128 或更小的失败概率以及均勻噪声分布。

延迟 布尔值 4 位整数(我们今天使用的)
2021 19 毫秒 53 毫秒
2025 796 微秒 945 微秒
加速 24× 56×
布尔值
2021 19 毫秒
2025 796 微秒
加速 24×
4 位整数 <br>(我们今天使用的)
2021 53 毫秒
2025 945 微秒
加速 56×

CPU 和 GPU 上引导的延迟:CPU 延迟是使用 2021 年的 Concrete-core 0.1.10 测量的。这是为了从整体上了解当前的 GPU 延迟。 密文使用高斯噪声分布进行加密,以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 1xH100 的 Nebius 平台上测量的,CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

对于原始的 TFHE 布尔引导程序,我们实现了 24 倍的改进。 对于 4 位整数,这是我们今天在我们所有产品中使用的,我们实现了 56 倍的改进。

TFHE 非常有趣的是,在多个 GPU 上计算大量批次的引导程序非常简单:只需将输入块复制到不同的 GPU 并独立引导它们即可。 执行一个引导不需要 GPU 之间的同步或协作。 因此,对于 4 位整数,在具有 8xH100 GPU 的单个节点上,吞吐量可以达到每秒 189K 个引导,如下表所示。

吞吐量 布尔值 4 位整数(我们今天使用的)
2021 135 PBS/秒 74 PBS/秒
2025 223,440 PBS/秒 189,000 PBS/秒
改进 1,655× 2,554×
布尔值
2021 135 PBS/秒
2025 223,440 PBS/秒
改进 1,655×
4 位整数(我们今天使用的)
2021 74 PBS/秒
2025 189,000 PBS/秒
改进 2,554×

CPU 和 GPU 上引导的吞吐量:CPU 吞吐量是使用 2021 年的 Concrete-core 0.1.10 测量的。 密文使用高斯噪声分布进行加密,以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8×H100 的 Nebius 平台上测量的,CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

对大整数 (FheUint) 运算的影响

一个引导的延迟是 FHE 性能的良好指标,但实际用例很少涉及单个引导的计算。 这就是为什么 TFHE-rs 中的当前 GPU 实现不是面向延迟的,也不是面向吞吐量的,而是为两者提供了良好的折衷方案。 这对于加速更高级别的操作(例如加密 32 位或 64 位消息的密文的加法或乘法)非常重要。 通过为延迟和吞吐量提供专门的实现,可以实现进一步的性能改进。 当前方法的优点是,它为开始这段新旅程提供了坚实的基础。

使用当前的实现,可以为加密 64 位整数的密文的加法和乘法实现非常好的延迟。 目前,在具有 8xH100 的单个节点上,两个 64 位加密消息的加法需要 8.7 毫秒,它们的乘法需要 32 毫秒,如下表所示:

延迟 64 位加密加法 64 位加密乘法
2022 2 秒 13 秒
2025 8.7 毫秒 32 毫秒
改进 230× 406×
64 位加密加法
2022 2 秒
2025 8.7 毫秒
改进 230×
64 位加密乘法
2022 13 秒
2025 32 毫秒
改进 406×

CPU 和 GPU 上 64 位加密加法和乘法的延迟:CPU 延迟是使用 2022 年 12 月版本的 Concrete 测量的。 密文使用 TUniform 噪声分布进行加密,以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8xH100 的 Nebius 平台上测量的,CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

完整版本的基准测试表将在下一个 TFHE-rs 版本发布时公开,敬请关注更新!

我们希望这一最新成就将对 FHE 在行业中的采用产生巨大影响,尤其是在区块链应用中。 请记住,在此类应用中,FHE 计算不是唯一的瓶颈:网络通信、MPC 协议、数据交换、零知识证明也会发挥作用。 尽管如此,FHE 性能从未如此接近明文计算。 而这仅仅是一个开始,因为专用加速器有望超越 GPU 性能。

参考书目

  • Chillotti, I., Gama, N., Georgieva, M. et al. (2020) TFHE: Torus 上的快速全同态加密。 J Cryptol 33, 34–91. https://doi.org/10.1007/s00145-019-09319-x

  • Zhou, T., Yang, X., Liu, L., Zhang, W. and Li, N., (2018) 具有多个加数的更快引导,IEEE Access,第 6 卷,第 49868-49876 页。 https://eprint.iacr.org/2017/735.pdf

  • Joye, M., Paillier, P. (2022). 具有扩展密钥的全同态加密中的盲旋转。 在:Dolev, S., Katz, J., Meisels, A. (eds) 网络安全、密码学和机器学习。 CSCML 2022. 计算机科学讲义,第 13301 卷。施普林格,查姆。 https://doi.org/10.1007/978-3-031-07689-3_1

  • Bernard, O., Joye, M., Smart, N. P. and Walter, M., (2025) 在全同态加密方案中漂移到更好的错误概率,在 S. Fehr 和 P.-A. Fouque, Eds., Advances in Cryptology – EUROCRYPT 2025, Part VIII, vol. 15608 of Lecture Notes in Computer Science, pp. 181-211, Springer, https://doi.org/10.1007/978-3-031-91101-9_7

  • De Ruijter, T., D'Anvers, J.-P. and Verbauwhede, I. (2025) 不要刻薄:通过均值补偿减少 TFHE 中的近似噪声, https://eprint.iacr.org/2025/809

  • 原文链接: zama.ai/post/bootstrappi...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
ZamaFHE
ZamaFHE
Zama是一家开源密码学公司,专注于为区块链和人工智能构建最先进的完全同态加密(FHE)解决方案。