使用 Concrete ML 构建端到端加密的类 23andMe 基因测试应用程序

ZamaFHE
发布于 2024-07-18 17:24
阅读 1323

本文介绍了如何使用 Concrete ML 构建一个端到端加密的类似于 23andMe 的基因测试应用程序。文章重点介绍了 Zama Bounty Program Season 5 中两个获胜的解决方案，它们都使用了全同态加密（FHE）来保护敏感的 DNA 数据，并对这两种方案的实现原理、精度和性能进行了分析，展示了 FHE 在保护个人身份信息（PII）方面的价值。

 Zama Bounty Program 第 5 季的一个挑战是使用全同态加密 (FHE) 创建一个加密版本的 23andMe（或其他 DNA 测试平台）。Github 用户 [Alephzerox](https://github.com/Alephzerox) 和 Github 用户 [Soptq](https://github.com/Soptq) 成功完成了这个赏金，这篇博客文章是基于他们的贡献。对 Zama Bounty Program 好奇吗？在 [Github](https://github.com/zama-ai/bounty-program) 上了解更多。

超过 3000 万人已经进行了 DNA 测试，以通过计算机基因血统学确定他们的祖先。通过处理 DNA 碱基的数字化序列，复杂的计算机算法可以识别一个人的祖先是否来自由共同地理起源的祖先确定的一些人口群体。DNA 是敏感的个人身份信息 (PII)，因为它可以唯一地识别一个人，并且 DNA 数据泄露已经发生。

Zama Bounty Program 奖励那些构建应用程序的开发人员，这些应用程序展示了 FHE 为保护敏感数据带来的价值，而 DNA 是需要保护的最重要的 PII 之一。在 Zama Bounty Program 的第 5 季中，我们挑战我们的社区构建一个机器学习系统，该系统可以确定加密的 DNA 数据上的祖先。

两个解决方案分享了第一名，并在本博客中讨论：一个由 Github 用户 [alephzerox](https://github.com/alephzerox/ancestry-fhe) 提供，另一个由 Github 用户 [soptq](https://github.com/Soptq/encDNA) 提供。

两位获胜者实施了不同的策略，但共享类似的数据管道。两种解决方案都使用了来自 [1000 genomes project](https://www.internationalgenome.org/) 的 DNA 数据。人类有 23 对染色体，即 DNA 遗传物质的包，并且所提出的解决方案使用来自 22 号染色体的数据。为了这些算法的目的，染色体被表示为 1 和 0 的向量，其中每个这样的二进制值表示染色体中某个位置的基因变异。这些值称为单核苷酸多态性 (SNP)。

### 让我们看看第一个解决方案：使用 ML 来预测祖先

Github 用户 [soptq](https://github.com/Soptq/encDNA) 采取的方法遵循 Gnomix \[1\] 并检查 517 个 **窗口** - DNA 描述向量的间隔 - 使用逻辑回归预测器来确定每个窗口的祖先。在第二步中，使用第二个分类器聚合这些窗口的决策，该分类器确定人的祖先混合。

下面是基因组数据的一个例子。总的来说，该数据集包含 4480 个人，使用的染色体有 1,059,079 个 SNP。

``` python
## 训练集个体
[1 0 1 1 0 1 0 0 0 1 0 0 ... 1]
[1 0 1 0 1 1 0 0 0 1 1 0 ... 0]
```

在预处理步骤中，基于称为“创始人”的“纯血统”基因组生成训练数据。这些基因组被手动分配了祖先，并被认为具有单一的祖先。为了获得训练数据，执行“混合”模拟：随机的父母基因组以随机比例组合，并计算合成标签 - 生成的基因组中包含的祖先比例。

首先，在第 22 号染色体 SNP 向量中生成随机断点。

``` python
num_snps = 10  # 染色体中 SNP 的总数

breakpoints = np.random.choice(
range(1, num_snps),
size=int(sum(np.random.poisson(0.75, size=gen))) + 1,  # 中断点的数量
replace=False  # 没有重复的中断点
)
```

接下来，使用第 22 对染色体中的一条染色体，在这些随机断点处将 SNP 从一个父本复制到另一个父本：

``` python
## 父母 2：选择第 22 对染色体中的一条随机染色体
snp, label = (snp_1, label_1) if random.random() < 0.5 else (snp_2, label_2)

...

## 父母 2：选择第 22 对染色体中的一条随机染色体
_snp, _label = (_snp_1, _label_1) if random.random() < 0.5 else (_snp_2, _label_2)

## 将 SNP 从父母 1 复制到父母 1 和 2 的“混合”后代
snp[breakpoints[i]:breakpoints[i + 1]] =
_snp[breakpoints[i]:breakpoints[i + 1]].copy()

## 生成合成祖先标签
label[breakpoints[i]:breakpoints[i + 1]]
= _label[breakpoints[i]:breakpoints[i + 1]].copy()
```

一旦生成了训练数据，它将被分成三个集合：第一阶段训练集，第二阶段训练集和验证集。首先，Github 用户 [soptq](https://github.com/Soptq/encDNA) 为分类管道的第一阶段训练逻辑回归模型，用于染色体中的每个位置。如下面的代码片段所示，Concrete ML 分类器是 scikit-learn 分类器的即插即用替代品，这简化了开发。

``` python
from concrete.ml.sklearn import LogisticRegression

## 计算染色体中的窗口数
n_windows = chromosome_length // window_size 	# 窗口数
context = int(window_size * 0.5) 			# 窗口之间的重叠

## 初始化 Concrete ML 逻辑回归模型
## 每个染色体中的每个窗口位置都有一个模型
## 训练在清晰的数据上完成
base_models = [LogisticRegression(n_bits=8,\
penalty="l2",\
C=3.,\
solver="liblinear",\
max_iter=1000) for _ in range(n_windows)]

## 提取一些上下文重叠的窗口
padded_window_size = window_size + 2 * context
## 每个窗口的起始索引
idx = np.arange(0, chromosome_length, window_size)[:-2]
## 从第一阶段训练集 X_t 中提取窗口
## 为每个窗口分类器创建训练数据
X_b = np.lib.stride_tricks.sliding_window_view(
X_t,
padded_window_size,
axis=1)[:, idx, :]

## 训练染色体中每个窗口的模型
models_with_data_and_labels = tuple(
zip(models[:-1],
np.swapaxes(X_b, 0, 1),
np.swapaxes(y_t, 0, 1)[:-1])
)

for (model, x, y) in tqdm(models_with_data_and_labels):
    model.fit(x, y)
    model.compile(x)
```

这种方法的第二阶段基于第一阶段的预测来预测染色体的全局祖先。要训练第二阶段，必须首先在第二个训练集分割上计算第一阶段分类器的预测。

``` python
## 第二个训练分割 X_p 的滑动窗口提取
X_b = np.lib.stride_tricks.sliding_window_view(X_p, padded_window_size, axis=1)[:, idx, :]
models_and_1st_stage_proba = tuple(zip(models[:-1], np.swapaxes(X_b, 0, 1)))

## 使用清晰的预测来为第二阶段生成训练数据
prob_X_t2 = np.array([model.predict_proba(x, fhe="disable")\
for (model, x) in models_and_1st_stage_proba]
)
```

接下来，训练并编译第二阶段分类器。使用 4 位的量化，这是基于树的模型的最佳设置，树的最大深度设置为 4，以避免过度拟合。

``` python
from concrete.ml.sklearn import XGBClassifier

smoother = XGBClassifier(
     n_bits=4, n_estimators=100, max_depth=4,
	learning_rate=0.1, reg_lambda=1, reg_alpha=0,
	n_jobs=N_JOBS, random_state=SEED,
	use_label_encoder=False, objective='multi:softprob',
)

X_slide, y_slide = slide_window(prob_X_t2, 75, y_t)
smoother.fit(X_slide, y_slide)
smoother.compile(X_slide, p_error=P_ERROR)
```

Concrete ML 分类器在清晰数据上训练时（如本例所示），在底层使用 scikit-learn 训练算法。因此，支持数据科学家熟悉的所有超参数设置，如上面的代码所示。

Github 用户 [soptq](https://github.com/Soptq/encDNA) 方法的准确率达到 96％，并且推断个人加密基因组的祖先的延迟约为 300 秒。

### 仔细看看第二个解决方案：在基因组参考面板中进行相似性搜索

Github 用户 [alephzerox](https://github.com/alephzerox/) 提出的第二个解决方案实现了 SALAI-Net 论文 \[2\]，并且依赖于个体的参考面板。这组基因组包含“纯血统”个体，并标有应用程序想要识别的祖先。查询染色体是必须受到保护的敏感信息，并且已加密，而参考面板可以保持清晰。

该算法的第一步是计算查询染色体和每个参考面板染色体之间共同 SNP 的数量。将 SNP 向量中的 0 值转换为 -1，第一步通过使用每个查询染色体 SNP 向量和每个参考面板染色体之间的乘法，然后是聚合匹配的Rollup来执行。

``` python
from concrete import fhe

reference_panel = self._reference_panel		     # 清除参考面板
snp_count = self._active_batch_samples.shape[1]     # 每条染色体的 SNP 数量
window_size = self._model_parameters.window_size    # 分析窗口大小
population_count = reference_panel.population_count # 参考面板的大小

## ------------ 计算 SNP 匹配 ------------
samples_slice = self._active_batch_samples
snp_matches = snps * samples_slice	# 乘法以检查匹配

## ------------ 计算窗口相似性得分 ------------
snp_matches_reshaped = snp_matches.reshape(1, 1, population_count, snp_count)

sum_kernel = np.array([[[[1] * window_size]]])
window_similarity_scores = fhe.conv(snp_matches_reshaped, sum_kernel, strides=(1, window_size))
```

在第二步中，以滑动窗口的方式在原始相似性得分上应用“平滑”内核。该内核具有类似于在 SALAI-Net 论文 \[2\] 中学习的波浪形形状。

``` python
per_population_scores = per_population_scores.reshape(population_count, 1, window_count)

smoother_kernel = inference_task.model_parameters.smoother_weights_as_tensor

smoother_kernel_size = len(smoother_kernel)
smoother_kernel = smoother_kernel.reshape(1, 1, smoother_kernel_size)

smooth_scores = f.conv1d(per_population_scores, smoother_kernel, padding=smoother_kernel_size // 2)
```

因此，在查询染色体的每个窗口中，我们获得了该窗口中与参考面板染色体链的相似性得分。将 Top-1 参考染色体作为与特定窗口关联的标签。最后，从预测的每个参考面板祖先的频率中计算每个祖先的百分比。在提交的方法中，Top-1 计算不是在 FHE 中执行的，尽管使用 [Zama Concrete 库](http://github.com/zama-ai/concrete) 中的 max-pool 运算符很容易实现。

Github 用户 [alephzerox](https://github.com/alephzerox/) 方法在 1000 个基因组数据集的测试集上的准确率为 96％，前提是每个祖先的参考面板包含 40 个创始人。准确性与每个祖先的创始人数量成正比：

| 创始人 | 准确性 |
| --- | --- |
| 1 | 29% |
| 5 | 50% |
| 10 | 66% |
| 40 | 96% |

对于此设置，使用 40 个创始人，在大型 192 核机器上，FHE 延迟应为数十分钟的量级。

### 结论

两种解决方案都实现了祖先分类的良好准确性。尽管采用了不同的方法，但两种解决方案之间的延迟复杂度相似，第二种解决方案执行了更多的线性计算：与标量相乘和Rollup。对于需要 PBS 的非线性计算，Github 用户 [soptq](https://github.com/Soptq/encDNA) 解决方案中使用的 XGBoost 分类器在 FHE 中具有与 Github 用户 [alephzerox](https://github.com/alephzerox/) 方法所需的 Top-1 计算相似的复杂度。总的来说，虽然两种方法都获得了相似的准确性，但像 Github 用户 [soptq](https://github.com/Soptq/encDNA) 方法中那样使用机器学习可以降低加密数据的推理延迟。

>- 原文链接： [zama.ai/post/build-an-en...](https://zama.ai/post/build-an-end-to-end-encrypted-23andme-genetic-testing-application-using-concrete-ml-fully-homomorphic-encryption)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

 Zama Bounty Program 第 5 季的一个挑战是使用全同态加密 (FHE) 创建一个加密版本的 23andMe（或其他 DNA 测试平台）。Github 用户 Alephzerox 和 Github 用户 Soptq 成功完成了这个赏金，这篇博客文章是基于他们的贡献。对 Zama Bounty Program 好奇吗？在 Github 上了解更多。

两个解决方案分享了第一名，并在本博客中讨论：一个由 Github 用户 alephzerox 提供，另一个由 Github 用户 soptq 提供。

两位获胜者实施了不同的策略，但共享类似的数据管道。两种解决方案都使用了来自 1000 genomes project 的 DNA 数据。人类有 23 对染色体，即 DNA 遗传物质的包，并且所提出的解决方案使用来自 22 号染色体的数据。为了这些算法的目的，染色体被表示为 1 和 0 的向量，其中每个这样的二进制值表示染色体中某个位置的基因变异。这些值称为单核苷酸多态性 (SNP)。

让我们看看第一个解决方案：使用 ML 来预测祖先

Github 用户 soptq 采取的方法遵循 Gnomix [1] 并检查 517 个窗口 - DNA 描述向量的间隔 - 使用逻辑回归预测器来确定每个窗口的祖先。在第二步中，使用第二个分类器聚合这些窗口的决策，该分类器确定人的祖先混合。

下面是基因组数据的一个例子。总的来说，该数据集包含 4480 个人，使用的染色体有 1,059,079 个 SNP。

## 训练集个体
[1 0 1 1 0 1 0 0 0 1 0 0 ... 1]
[1 0 1 0 1 1 0 0 0 1 1 0 ... 0]

首先，在第 22 号染色体 SNP 向量中生成随机断点。

num_snps = 10  # 染色体中 SNP 的总数

breakpoints = np.random.choice(
range(1, num_snps),
size=int(sum(np.random.poisson(0.75, size=gen))) + 1,  # 中断点的数量
replace=False  # 没有重复的中断点
)

接下来，使用第 22 对染色体中的一条染色体，在这些随机断点处将 SNP 从一个父本复制到另一个父本：

## 父母 2：选择第 22 对染色体中的一条随机染色体
snp, label = (snp_1, label_1) if random.random() &lt; 0.5 else (snp_2, label_2)

...

## 父母 2：选择第 22 对染色体中的一条随机染色体
_snp, _label = (_snp_1, _label_1) if random.random() &lt; 0.5 else (_snp_2, _label_2)

## 将 SNP 从父母 1 复制到父母 1 和 2 的“混合”后代
snp[breakpoints[i]:breakpoints[i + 1]] =
_snp[breakpoints[i]:breakpoints[i + 1]].copy()

## 生成合成祖先标签
label[breakpoints[i]:breakpoints[i + 1]]
= _label[breakpoints[i]:breakpoints[i + 1]].copy()

一旦生成了训练数据，它将被分成三个集合：第一阶段训练集，第二阶段训练集和验证集。首先，Github 用户 soptq 为分类管道的第一阶段训练逻辑回归模型，用于染色体中的每个位置。如下面的代码片段所示，Concrete ML 分类器是 scikit-learn 分类器的即插即用替代品，这简化了开发。

from concrete.ml.sklearn import LogisticRegression

## 计算染色体中的窗口数
n_windows = chromosome_length // window_size    # 窗口数
context = int(window_size * 0.5)            # 窗口之间的重叠

## 初始化 Concrete ML 逻辑回归模型
## 每个染色体中的每个窗口位置都有一个模型
## 训练在清晰的数据上完成
base_models = [LogisticRegression(n_bits=8,\
penalty="l2",\
C=3.,\
solver="liblinear",\
max_iter=1000) for _ in range(n_windows)]

## 提取一些上下文重叠的窗口
padded_window_size = window_size + 2 * context
## 每个窗口的起始索引
idx = np.arange(0, chromosome_length, window_size)[:-2]
## 从第一阶段训练集 X_t 中提取窗口
## 为每个窗口分类器创建训练数据
X_b = np.lib.stride_tricks.sliding_window_view(
X_t,
padded_window_size,
axis=1)[:, idx, :]

## 训练染色体中每个窗口的模型
models_with_data_and_labels = tuple(
zip(models[:-1],
np.swapaxes(X_b, 0, 1),
np.swapaxes(y_t, 0, 1)[:-1])
)

for (model, x, y) in tqdm(models_with_data_and_labels):
    model.fit(x, y)
    model.compile(x)

这种方法的第二阶段基于第一阶段的预测来预测染色体的全局祖先。要训练第二阶段，必须首先在第二个训练集分割上计算第一阶段分类器的预测。

## 第二个训练分割 X_p 的滑动窗口提取
X_b = np.lib.stride_tricks.sliding_window_view(X_p, padded_window_size, axis=1)[:, idx, :]
models_and_1st_stage_proba = tuple(zip(models[:-1], np.swapaxes(X_b, 0, 1)))

## 使用清晰的预测来为第二阶段生成训练数据
prob_X_t2 = np.array([model.predict_proba(x, fhe="disable")\
for (model, x) in models_and_1st_stage_proba]
)

接下来，训练并编译第二阶段分类器。使用 4 位的量化，这是基于树的模型的最佳设置，树的最大深度设置为 4，以避免过度拟合。

from concrete.ml.sklearn import XGBClassifier

smoother = XGBClassifier(
     n_bits=4, n_estimators=100, max_depth=4,
    learning_rate=0.1, reg_lambda=1, reg_alpha=0,
    n_jobs=N_JOBS, random_state=SEED,
    use_label_encoder=False, objective='multi:softprob',
)

X_slide, y_slide = slide_window(prob_X_t2, 75, y_t)
smoother.fit(X_slide, y_slide)
smoother.compile(X_slide, p_error=P_ERROR)

Github 用户 soptq 方法的准确率达到 96％，并且推断个人加密基因组的祖先的延迟约为 300 秒。

仔细看看第二个解决方案：在基因组参考面板中进行相似性搜索

Github 用户 alephzerox 提出的第二个解决方案实现了 SALAI-Net 论文 [2]，并且依赖于个体的参考面板。这组基因组包含“纯血统”个体，并标有应用程序想要识别的祖先。查询染色体是必须受到保护的敏感信息，并且已加密，而参考面板可以保持清晰。

from concrete import fhe

reference_panel = self._reference_panel          # 清除参考面板
snp_count = self._active_batch_samples.shape[1]     # 每条染色体的 SNP 数量
window_size = self._model_parameters.window_size    # 分析窗口大小
population_count = reference_panel.population_count # 参考面板的大小

## ------------ 计算 SNP 匹配 ------------
samples_slice = self._active_batch_samples
snp_matches = snps * samples_slice  # 乘法以检查匹配

## ------------ 计算窗口相似性得分 ------------
snp_matches_reshaped = snp_matches.reshape(1, 1, population_count, snp_count)

sum_kernel = np.array([[[[1] * window_size]]])
window_similarity_scores = fhe.conv(snp_matches_reshaped, sum_kernel, strides=(1, window_size))

在第二步中，以滑动窗口的方式在原始相似性得分上应用“平滑”内核。该内核具有类似于在 SALAI-Net 论文 [2] 中学习的波浪形形状。

per_population_scores = per_population_scores.reshape(population_count, 1, window_count)

smoother_kernel = inference_task.model_parameters.smoother_weights_as_tensor

smoother_kernel_size = len(smoother_kernel)
smoother_kernel = smoother_kernel.reshape(1, 1, smoother_kernel_size)

smooth_scores = f.conv1d(per_population_scores, smoother_kernel, padding=smoother_kernel_size // 2)

因此，在查询染色体的每个窗口中，我们获得了该窗口中与参考面板染色体链的相似性得分。将 Top-1 参考染色体作为与特定窗口关联的标签。最后，从预测的每个参考面板祖先的频率中计算每个祖先的百分比。在提交的方法中，Top-1 计算不是在 FHE 中执行的，尽管使用 Zama Concrete 库中的 max-pool 运算符很容易实现。

Github 用户 alephzerox 方法在 1000 个基因组数据集的测试集上的准确率为 96％，前提是每个祖先的参考面板包含 40 个创始人。准确性与每个祖先的创始人数量成正比：

创始人	准确性
1	29%
5	50%
10	66%
40	96%

对于此设置，使用 40 个创始人，在大型 192 核机器上，FHE 延迟应为数十分钟的量级。

结论

两种解决方案都实现了祖先分类的良好准确性。尽管采用了不同的方法，但两种解决方案之间的延迟复杂度相似，第二种解决方案执行了更多的线性计算：与标量相乘和Rollup。对于需要 PBS 的非线性计算，Github 用户 soptq 解决方案中使用的 XGBoost 分类器在 FHE 中具有与 Github 用户 alephzerox 方法所需的 Top-1 计算相似的复杂度。总的来说，虽然两种方法都获得了相似的准确性，但像 Github 用户 soptq 方法中那样使用机器学习可以降低加密数据的推理延迟。

原文链接： zama.ai/post/build-an-en...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

使用 Concrete ML 构建端到端加密的类 23andMe 基因测试应用程序

让我们看看第一个解决方案：使用 ML 来预测祖先

仔细看看第二个解决方案：在基因组参考面板中进行相似性搜索

结论

0 条评论

文章目录