TFHE 密文 Bootstrapping 耗时低于 1 毫秒

ZamaFHE
发布于 2025-09-18 09:18
阅读 1758

Zama 团队宣布在 GPU 上实现了 TFHE bootstrapping 的重大突破，将 4 比特消息的延迟降低到微秒级别，同时保持了相同的安全级别和失败概率。他们通过优化算法和利用 GPU 资源，显著提高了 bootstrapping 的速度，使得 FHE 在实际应用中更具可行性，尤其是在区块链领域。

**请系好安全带。Zama 团队很高兴地宣布，我们已经突破了 TFHE 引导的 1 毫秒障碍；对于 4 位消息，GPU 上的延迟现在以微秒为单位进行衡量，同时保持相同的安全级别和失效概率。 在这篇博文中，我们将回顾我们为达到这个里程碑所取得的进展。**

![](https://img.learnblockchain.cn/2025/09/18/68c838c9c83ab119bd8b72c0_GPU.png)

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。 这得益于一种名为引导的特殊操作。 它是主要的性能瓶颈：为了使 FHE 得到广泛应用，必须将其延迟和吞吐量推向极限。 只有这样，加密数据的计算才能达到类似于明文计算的延迟和吞吐量。

在 Zama，我们致力于加速 TFHE 可编程引导。 它是 TFHE-rs 中所有操作的核心：它不仅可以重置密文中的噪声，还可以将函数应用于密文。 这对于在加密数据上构建通用算术非常强大。

Zama 的第一个引导实现在 CPU 上耗时 53 毫秒，具有 128 位的安全性和 2-128 的 4 位消息失败概率。 今天，我们很高兴地宣布，我们已经突破了 1 毫秒的界限，并且对于 4 位消息，GPU 上的 TFHE 引导延迟现在以微秒为单位进行衡量，同时保持相同的安全级别和失效概率。 让我们回到过去，看看这是如何发生的。

### 加速引导

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。 这得益于一种名为引导的特殊操作。 该操作由 Craig Gentry 于 2009 年发明，依赖于基于格的密码学：主要思想是同态评估解密电路。 当时，估计需要长达 30 分钟才能完成计算。

2018 年，在之前的名为 FHEW 的方案之后，引入了 TFHE 引导 \[Chillotti2020]。 与大多数其他 FHE 方案一样，一个引导一次处理数千条消息，但是当你只需要引导一个或几个消息时，你仍然需要为整个批次付出代价。 然而，TFHE 引导的延迟非常好：正如引言中提到的，Zama 的第一个引导实现花费了 53 毫秒。

为了使 FHE 计算变得无缝，引导的延迟和吞吐量都必须尽可能接近明文计算。 TFHE 为单个或少量引导打开了低延迟的大门，这在以前是不可能的。

Zama 几乎从一开始就致力于 TFHE 引导的 GPU 加速，并坚信有一种方法可以使其在 GPU 上更快。 引导算法是高度顺序的，这使得它非常不适合 GPU。 尽管如此，引导时间还是逐渐减少了。 2024 年，一个 TFHE 引导在一个 H100 GPU 上仅花费 2 毫秒，比最初在 CPU 上的测量快 26 倍。

这得益于使用 TFHE 引导的替代算法：多位算法 \[Zhou2018]\[Joye2022]，该算法提供更多的并行性。 该算法也可以在 CPU 上实现以获得更好的延迟，但是吞吐量会大大降低。 在 GPU 上，该算法非常适合，因为它可以在显着降低延迟的同时保持吞吐量。 在首次实现之后，实施了许多底层优化，以充分利用 GPU 资源并最大程度地提高并行性。 性能逐渐提高。

在 2021 年至 2024 年之间，安全级别发生了变化：TFHE-rs 现在是 IND-CPAD 安全的，但在 2021 年，Concrete 仅是 IND-CPA 安全的，因为相关的攻击尚未可知。 使用 128 位安全性覆盖 IND-CPAD 攻击需要更改密码参数并引入新技术来缓解攻击 \[Bernard2025, Ruijter2025]。 这对性能产生了很大的影响，并通过优化和新的密码学技术来降低引导后的噪声水平来缓解。

尽管如此，2 毫秒仍然太慢了。 在过去的几个月中，Zama 的 GPU 团队一直致力于进一步提高引导性能。 特别是，引入了一种在编译时专门针对区块链密码参数的实现。 在编译时知道更多变量可以减少 GPU 中的寄存器压力，并且将其与微调的优化相结合，可以实现显着的性能改进。

**现在，在具有 128 位 IND-CPAD 安全性的一个 GPU 上，引导大约需要 800 微秒。**

该引导加密两位消息以处理布尔值并使用高斯噪声：这被认为是文献中的参考。 实际上，在 TFHE-rs 中，使用 TUniform 噪声分布加密 4 位消息的引导程序用于区块链：使用这些参数，引导程序需要 945 微秒。

### 基准

以下是当前 GPU 引导实现与 2021 年原始 CPU 实现的比较。参数用于 IND-CPAD 安全性，即 128 位安全性和 2-128 或更小的失败概率以及均勻噪声分布。

| 延迟 | 布尔值 | 4 位整数（我们今天使用的） |
| --- | --- | --- |
| 2021 | 19 毫秒 | 53 毫秒 |
| 2025 | 796 微秒 | 945 微秒 |
| 加速 | 24× | 56× |

| 布尔值 |
| --- |
| 2021 | 19 毫秒 |
| 2025 | 796 微秒 |
| 加速 | 24× |

| 4 位整数 <br>(我们今天使用的) |
| --- |
| 2021 | 53 毫秒 |
| 2025 | 945 微秒 |
| 加速 | 56× |

CPU 和 GPU 上引导的延迟：CPU 延迟是使用 2021 年的 Concrete-core 0.1.10 测量的。这是为了从整体上了解当前的 GPU 延迟。 密文使用高斯噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 1xH100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

对于原始的 TFHE 布尔引导程序，我们实现了 24 倍的改进。 对于 4 位整数，这是我们今天在我们所有产品中使用的，我们实现了 56 倍的改进。

TFHE 非常有趣的是，在多个 GPU 上计算大量批次的引导程序非常简单：只需将输入块复制到不同的 GPU 并独立引导它们即可。 执行一个引导不需要 GPU 之间的同步或协作。 因此，对于 4 位整数，在具有 8xH100 GPU 的单个节点上，吞吐量可以达到**每秒 189K 个引导**，如下表所示。

| 吞吐量 | 布尔值 | 4 位整数（我们今天使用的） |
| --- | --- | --- |
| 2021 | 135 PBS/秒 | 74 PBS/秒 |
| 2025 | 223,440 PBS/秒 | 189,000 PBS/秒 |
| 改进 | 1,655× | 2,554× |

| 布尔值 |
| --- |
| 2021 | 135 PBS/秒 |
| 2025 | 223,440 PBS/秒 |
| 改进 | 1,655× |

| 4 位整数（我们今天使用的） |
| --- |
| 2021 | 74 PBS/秒 |
| 2025 | 189,000 PBS/秒 |
| 改进 | 2,554× |

CPU 和 GPU 上引导的吞吐量：CPU 吞吐量是使用 2021 年的 Concrete-core 0.1.10 测量的。 密文使用高斯噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8×H100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

### 对大整数 (FheUint) 运算的影响

一个引导的延迟是 FHE 性能的良好指标，但实际用例很少涉及单个引导的计算。 这就是为什么 TFHE-rs 中的当前 GPU 实现不是面向延迟的，也不是面向吞吐量的，而是为两者提供了良好的折衷方案。 这对于加速更高级别的操作（例如加密 32 位或 64 位消息的密文的加法或乘法）非常重要。 通过为延迟和吞吐量提供专门的实现，可以实现进一步的性能改进。 当前方法的优点是，它为开始这段新旅程提供了坚实的基础。

使用当前的实现，可以为加密 64 位整数的密文的加法和乘法实现非常好的延迟。 目前，在具有 8xH100 的单个节点上，两个 64 位加密消息的加法需要 8.7 毫秒，它们的乘法需要 32 毫秒，如下表所示：

| 延迟 | 64 位加密加法 | 64 位加密乘法 |
| --- | --- | --- |
| 2022 | 2 秒 | 13 秒 |
| 2025 | 8.7 毫秒 | 32 毫秒 |
| 改进 | 230× | 406× |

| 64 位加密加法 |
| --- |
| 2022 | 2 秒 |
| 2025 | 8.7 毫秒 |
| 改进 | 230× |

| 64 位加密乘法 |
| --- |
| 2022 | 13 秒 |
| 2025 | 32 毫秒 |
| 改进 | 406× |

CPU 和 GPU 上 64 位加密加法和乘法的延迟：CPU 延迟是使用 2022 年 12 月版本的 Concrete 测量的。 密文使用 TUniform 噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8xH100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

完整版本的基准测试表将在下一个 TFHE-rs 版本发布时公开，敬请关注更新！

我们希望这一最新成就将对 FHE 在行业中的采用产生巨大影响，尤其是在区块链应用中。 请记住，在此类应用中，FHE 计算不是唯一的瓶颈：网络通信、MPC 协议、数据交换、零知识证明也会发挥作用。 尽管如此，FHE 性能从未如此接近明文计算。 而这仅仅是一个开始，因为专用加速器有望超越 GPU 性能。

**参考书目**

- Chillotti, I., Gama, N., Georgieva, M. et al. (2020) TFHE: Torus 上的快速全同态加密。 J Cryptol 33, 34–91. [https://doi.org/10.1007/s00145-019-09319-x](https://doi.org/10.1007/s00145-019-09319-x)

- Zhou, T., Yang, X., Liu, L., Zhang, W. and Li, N., (2018) 具有多个加数的更快引导，IEEE Access，第 6 卷，第 49868-49876 页。 [https://eprint.iacr.org/2017/735.pdf](https://eprint.iacr.org/2017/735.pdf)

- Joye, M., Paillier, P. (2022). 具有扩展密钥的全同态加密中的盲旋转。 在：Dolev, S., Katz, J., Meisels, A. (eds) 网络安全、密码学和机器学习。 CSCML 2022. 计算机科学讲义，第 13301 卷。施普林格，查姆。 [https://doi.org/10.1007/978-3-031-07689-3\_1](https://doi.org/10.1007/978-3-031-07689-3_1)

- Bernard, O., Joye, M., Smart, N. P. and Walter, M., (2025) 在全同态加密方案中漂移到更好的错误概率，在 S. Fehr 和 P.-A. Fouque, Eds., Advances in Cryptology – EUROCRYPT 2025, Part VIII, vol. 15608 of Lecture Notes in Computer Science, pp. 181-211, Springer, [https://doi.org/10.1007/978-3-031-91101-9\_7](https://doi.org/10.1007/978-3-031-91101-9_7)
- De Ruijter, T., D'Anvers, J.-P. and Verbauwhede, I. (2025) 不要刻薄：通过均值补偿减少 TFHE 中的近似噪声, [https://eprint.iacr.org/2025/809](https://eprint.iacr.org/2025/809)

>- 原文链接： [zama.ai/post/bootstrappi...](https://zama.ai/post/bootstrapping-tfhe-ciphertexts-in-less-than-one-millisecond)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

请系好安全带。Zama 团队很高兴地宣布，我们已经突破了 TFHE 引导的 1 毫秒障碍；对于 4 位消息，GPU 上的延迟现在以微秒为单位进行衡量，同时保持相同的安全级别和失效概率。在这篇博文中，我们将回顾我们为达到这个里程碑所取得的进展。

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。这得益于一种名为引导的特殊操作。它是主要的性能瓶颈：为了使 FHE 得到广泛应用，必须将其延迟和吞吐量推向极限。只有这样，加密数据的计算才能达到类似于明文计算的延迟和吞吐量。

在 Zama，我们致力于加速 TFHE 可编程引导。它是 TFHE-rs 中所有操作的核心：它不仅可以重置密文中的噪声，还可以将函数应用于密文。这对于在加密数据上构建通用算术非常强大。

Zama 的第一个引导实现在 CPU 上耗时 53 毫秒，具有 128 位的安全性和 2-128 的 4 位消息失败概率。今天，我们很高兴地宣布，我们已经突破了 1 毫秒的界限，并且对于 4 位消息，GPU 上的 TFHE 引导延迟现在以微秒为单位进行衡量，同时保持相同的安全级别和失效概率。让我们回到过去，看看这是如何发生的。

加速引导

全同态加密 (FHE) 使得在加密数据上应用任意数量的操作成为可能。这得益于一种名为引导的特殊操作。该操作由 Craig Gentry 于 2009 年发明，依赖于基于格的密码学：主要思想是同态评估解密电路。当时，估计需要长达 30 分钟才能完成计算。

2018 年，在之前的名为 FHEW 的方案之后，引入了 TFHE 引导 [Chillotti2020]。与大多数其他 FHE 方案一样，一个引导一次处理数千条消息，但是当你只需要引导一个或几个消息时，你仍然需要为整个批次付出代价。然而，TFHE 引导的延迟非常好：正如引言中提到的，Zama 的第一个引导实现花费了 53 毫秒。

为了使 FHE 计算变得无缝，引导的延迟和吞吐量都必须尽可能接近明文计算。 TFHE 为单个或少量引导打开了低延迟的大门，这在以前是不可能的。

Zama 几乎从一开始就致力于 TFHE 引导的 GPU 加速，并坚信有一种方法可以使其在 GPU 上更快。引导算法是高度顺序的，这使得它非常不适合 GPU。尽管如此，引导时间还是逐渐减少了。 2024 年，一个 TFHE 引导在一个 H100 GPU 上仅花费 2 毫秒，比最初在 CPU 上的测量快 26 倍。

这得益于使用 TFHE 引导的替代算法：多位算法 [Zhou2018][Joye2022]，该算法提供更多的并行性。该算法也可以在 CPU 上实现以获得更好的延迟，但是吞吐量会大大降低。在 GPU 上，该算法非常适合，因为它可以在显着降低延迟的同时保持吞吐量。在首次实现之后，实施了许多底层优化，以充分利用 GPU 资源并最大程度地提高并行性。性能逐渐提高。

在 2021 年至 2024 年之间，安全级别发生了变化：TFHE-rs 现在是 IND-CPAD 安全的，但在 2021 年，Concrete 仅是 IND-CPA 安全的，因为相关的攻击尚未可知。使用 128 位安全性覆盖 IND-CPAD 攻击需要更改密码参数并引入新技术来缓解攻击 [Bernard2025, Ruijter2025]。这对性能产生了很大的影响，并通过优化和新的密码学技术来降低引导后的噪声水平来缓解。

尽管如此，2 毫秒仍然太慢了。在过去的几个月中，Zama 的 GPU 团队一直致力于进一步提高引导性能。特别是，引入了一种在编译时专门针对区块链密码参数的实现。在编译时知道更多变量可以减少 GPU 中的寄存器压力，并且将其与微调的优化相结合，可以实现显着的性能改进。

现在，在具有 128 位 IND-CPAD 安全性的一个 GPU 上，引导大约需要 800 微秒。

该引导加密两位消息以处理布尔值并使用高斯噪声：这被认为是文献中的参考。实际上，在 TFHE-rs 中，使用 TUniform 噪声分布加密 4 位消息的引导程序用于区块链：使用这些参数，引导程序需要 945 微秒。

基准

以下是当前 GPU 引导实现与 2021 年原始 CPU 实现的比较。参数用于 IND-CPAD 安全性，即 128 位安全性和 2-128 或更小的失败概率以及均勻噪声分布。

延迟	布尔值	4 位整数（我们今天使用的）
2021	19 毫秒	53 毫秒
2025	796 微秒	945 微秒
加速	24×	56×

布尔值
2021	19 毫秒
2025	796 微秒
加速	24×

4 位整数 <br>(我们今天使用的)
2021	53 毫秒
2025	945 微秒
加速	56×

CPU 和 GPU 上引导的延迟：CPU 延迟是使用 2021 年的 Concrete-core 0.1.10 测量的。这是为了从整体上了解当前的 GPU 延迟。密文使用高斯噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 1xH100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

对于原始的 TFHE 布尔引导程序，我们实现了 24 倍的改进。对于 4 位整数，这是我们今天在我们所有产品中使用的，我们实现了 56 倍的改进。

TFHE 非常有趣的是，在多个 GPU 上计算大量批次的引导程序非常简单：只需将输入块复制到不同的 GPU 并独立引导它们即可。执行一个引导不需要 GPU 之间的同步或协作。因此，对于 4 位整数，在具有 8xH100 GPU 的单个节点上，吞吐量可以达到每秒 189K 个引导，如下表所示。

吞吐量	布尔值	4 位整数（我们今天使用的）
2021	135 PBS/秒	74 PBS/秒
2025	223,440 PBS/秒	189,000 PBS/秒
改进	1,655×	2,554×

布尔值
2021	135 PBS/秒
2025	223,440 PBS/秒
改进	1,655×

4 位整数（我们今天使用的）
2021	74 PBS/秒
2025	189,000 PBS/秒
改进	2,554×

CPU 和 GPU 上引导的吞吐量：CPU 吞吐量是使用 2021 年的 Concrete-core 0.1.10 测量的。密文使用高斯噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8×H100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

对大整数 (FheUint) 运算的影响

一个引导的延迟是 FHE 性能的良好指标，但实际用例很少涉及单个引导的计算。这就是为什么 TFHE-rs 中的当前 GPU 实现不是面向延迟的，也不是面向吞吐量的，而是为两者提供了良好的折衷方案。这对于加速更高级别的操作（例如加密 32 位或 64 位消息的密文的加法或乘法）非常重要。通过为延迟和吞吐量提供专门的实现，可以实现进一步的性能改进。当前方法的优点是，它为开始这段新旅程提供了坚实的基础。

使用当前的实现，可以为加密 64 位整数的密文的加法和乘法实现非常好的延迟。目前，在具有 8xH100 的单个节点上，两个 64 位加密消息的加法需要 8.7 毫秒，它们的乘法需要 32 毫秒，如下表所示：

延迟	64 位加密加法	64 位加密乘法
2022	2 秒	13 秒
2025	8.7 毫秒	32 毫秒
改进	230×	406×

64 位加密加法
2022	2 秒
2025	8.7 毫秒
改进	230×

64 位加密乘法
2022	13 秒
2025	32 毫秒
改进	406×

CPU 和 GPU 上 64 位加密加法和乘法的延迟：CPU 延迟是使用 2022 年 12 月版本的 Concrete 测量的。密文使用 TUniform 噪声分布进行加密，以实现 128 位的安全性和 2^-128 的失败概率。 GPU 结果是在具有 8xH100 的 Nebius 平台上测量的，CPU 结果是在 AWS 上 hpc7a.96xlarge 实例上测量的。

完整版本的基准测试表将在下一个 TFHE-rs 版本发布时公开，敬请关注更新！

我们希望这一最新成就将对 FHE 在行业中的采用产生巨大影响，尤其是在区块链应用中。请记住，在此类应用中，FHE 计算不是唯一的瓶颈：网络通信、MPC 协议、数据交换、零知识证明也会发挥作用。尽管如此，FHE 性能从未如此接近明文计算。而这仅仅是一个开始，因为专用加速器有望超越 GPU 性能。

参考书目

Chillotti, I., Gama, N., Georgieva, M. et al. (2020) TFHE: Torus 上的快速全同态加密。 J Cryptol 33, 34–91. https://doi.org/10.1007/s00145-019-09319-x
Zhou, T., Yang, X., Liu, L., Zhang, W. and Li, N., (2018) 具有多个加数的更快引导，IEEE Access，第 6 卷，第 49868-49876 页。 https://eprint.iacr.org/2017/735.pdf
Joye, M., Paillier, P. (2022). 具有扩展密钥的全同态加密中的盲旋转。在：Dolev, S., Katz, J., Meisels, A. (eds) 网络安全、密码学和机器学习。 CSCML 2022. 计算机科学讲义，第 13301 卷。施普林格，查姆。 https://doi.org/10.1007/978-3-031-07689-3_1
Bernard, O., Joye, M., Smart, N. P. and Walter, M., (2025) 在全同态加密方案中漂移到更好的错误概率，在 S. Fehr 和 P.-A. Fouque, Eds., Advances in Cryptology – EUROCRYPT 2025, Part VIII, vol. 15608 of Lecture Notes in Computer Science, pp. 181-211, Springer, https://doi.org/10.1007/978-3-031-91101-9_7
De Ruijter, T., D'Anvers, J.-P. and Verbauwhede, I. (2025) 不要刻薄：通过均值补偿减少 TFHE 中的近似噪声, https://eprint.iacr.org/2025/809

原文链接： zama.ai/post/bootstrappi...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

翻译
学分: 105
分类: 密码学
标签: 同态加密 TFHE Bootstrapping GPU加速性能优化区块链

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

TFHE 密文 Bootstrapping 耗时低于 1 毫秒

加速引导

基准

对大整数 (FheUint) 运算的影响

0 条评论

文章目录