第三期:钱包聚类的简史

  • spiralbtc
  • 发布于 2025-05-21 23:12
  • 阅读 19

本文回顾了比特币钱包聚类的发展历史,从早期的观察性研究到实证结果,再到钱包指纹识别技术的应用。文章强调了钱包聚类技术在识别比特币用户身份方面的重要性,并讨论了改进隐私保护的必要性,以及即使采取预防措施,个人隐私仍可能因其他用户的行为而受损的风险。

Spiral 的新闻信分为五个系列,涵盖了从毛绒玩具到深度极客内容的所有内容。不喜欢其中一个?跳过它,老兄。直接滑走就行。

滚动 #3:钱包聚类简史

@not_nothingmuch 撰写

本系列的前一篇文章介绍了钱包或地址聚类的基本概念、地址重用的简单情况,以及基于常用输入所有权启发式(CIOH),也称为多输入启发式的集群合并。

今天,我们将扩展更复杂的聚类方法,简要总结几篇值得注意的论文。这里的内容主要与关于此主题的 直播 重叠,该直播是本系列的配套内容。请注意,引用的作品列表绝不是详尽无遗的。

早期观察性研究 - 2011-2013

据我所知,最早发表的关于聚类的学术研究是 Fergal Reid 和 Martin Harrigan 的 比特币系统中匿名性的分析PDF)。这项工作更广泛地研究了比特币的匿名性,在讨论链上交易图时,引入了“用户网络”的概念,以基于 CIOH 建模单个用户的币的相关性。使用此模型,作者批判性地审查了 WikiLeaks 声称其“接受匿名比特币捐款”。

另一项未作为论文发表的研究是 Kay Hamacher 和 Stefan Katzenbeisser 在 28c3 上展示的 比特币 - 分析YouTube)。他们使用交易图数据研究了资金流,并对比特币做出了一些非常具有先见之明的观察。

完整比特币交易图的定量分析PDF)中,Dorit Ron 和 Adi Shamir 分析了整个交易图的快照。其中,他们注意到一种奇怪的模式,这可能是早期试图破坏 CIOH 的尝试:

我们发现,几乎所有这些大型交易都是涉及 90,000 个比特币的单笔大型交易的后代[大概是 b9a0961c07ea9a28…],该交易发生在 2010 年 11 月 8 日,并且这些交易的子图包含许多看起来很奇怪的链和合并结构,其中大量余额在几个小时内通过数百个临时中间账户转移,或者分成许多小额资金发送到不同的账户,只是为了在之后不久重新组合成新账户中的基本相同的金额。

这种模式的另一个早期混淆是由于 MtGox,它允许用户上传他们的私钥。许多用户的密钥被用作 MtGox 构建的批量扫描交易的输入,以服务于这种不寻常的存款模式。将 CIOH 天真地应用于这些交易导致集群崩溃,特别是之前在 walletexplorer.com 上被称为 MtGoxAndOthers 的集群(现在称为 CoinJoinMess)。Ron 和 Shamir 似乎也注意到了这一点:

然而,[这些] 统计数据存在巨大差异,事实上,一个实体与 156,722 个不同的地址相关联。通过分析其中一些地址并跟踪它们的交易,很容易确定这个实体是 Mt.Gox

尽管提到了找零识别(Ron 和 Shamir 将其称为“内部”转移),但首次尝试形式化似乎是在 Elli Androulaki、Ghassan O. Karame、Marc Roeschlin、Tobias Scherer 和 Srdjan Capkun 的 评估比特币中的用户隐私PDF)中。他们使用了术语“影子地址”,现在通常被称为“找零输出”。这指的是自花费输出,通常每笔交易一个,由与包含交易的输入相同的实体控制。该论文介绍了一种识别此类输出并将其与输入聚类的启发式方法。随后的工作对此想法进行了广泛迭代,提出了几种变体。一个基于 2 个输出交易金额的例子是,如果一个输出的值接近以美元计价的整数(基于历史汇率),那么该输出很可能是付款,表明另一个生产是找零。

比特币隐私研究的早期阶段见证了钱包聚类理论确立为研究比特币隐私的基础工具。虽然这并非完全是理论上的,但证据支持有限,需要相对较强的假设才能解释可观察的数据。

实证结果 - 2013-2017

尽管研究人员试图验证这些论文的结论,例如,通过采访比特币用户并要求他们确认其钱包聚类的准确性,或者像 Androulaki 等人的工作那样使用模拟,但关于用户正在使用的对策的信息很少。

Sarah Meiklejohn、Marjori Pomarole、Grant Jordan、Kirill Levchenko、Damon McCoy、Geoffrey M. Voelker 和 Stefan Savage 的 一小撮比特币:描述无名氏之间的支付(PDF:1, 2)研究了比特币混合器的使用,并通过使用包含真实比特币的此类服务来测试启发式方法。在更理论的方面,他们定义了一种比以前的工作更通用和准确的找零识别启发式方法。

在他的论文 比特币中数据驱动的反匿名化 中,Jonas Nick 能够使用从 BIP 37 布隆过滤器实现中的隐私错误获得的信息来验证 CIOH 和找零识别启发式方法,该过滤器主要由使用 bitcoinj 构建的轻客户端使用。Arthur Gervais、Srdjan Capkun、Ghassan O. Karame 和 Damian Gruber 在 轻量级比特币客户端中布隆过滤器的隐私条款PDF)中描述了底层隐私泄露。该泄露表明聚类启发式方法相当强大,Martin Harrigan 和 Christoph Fretter 在 地址聚类的非凡有效性PDF)中详细阐述了这一发现。

还观察到攻击者发送比特币,不是像一小撮比特币论文那样通过混合器发送,而是少量发送到已经出现在链上的地址。这种行为称为 dusting 或 dust1 攻击,可以通过两种方式使受害者去匿名化。首先,接收钱包可能会花费资金,从而导致地址重用。其次,旧版本的 Bitcoin Core 曾经 重新广播接收到的交易,因此连接到 p2p 网络上许多节点的攻击者可以观察到是否有任何节点重新广播其 dusting 交易以及该节点的 IP 地址到集群。2

尽管 Matteo Loporchio、Anna Bernasconi、Damiano Di Francesco Maesa 和 Laura Ricci 的 比特币聚集灰尘了吗?低金额比特币交易分析PDF)在 2023 年提供了有关灰尘攻击的见解,但他们分析的数据集仅扩展到 2017 年。这项工作着眼于此类攻击在揭示集群方面的有效性:

这意味着,灰尘攻击交易虽然仅占所有灰尘创建交易的 4.86%,但可以聚类 66.43% 的所有灰尘诱导聚类地址。考虑到整个数据集,涉嫌参与灰尘攻击的交易仅占所有交易的 0.008%,但可以聚类 0.14% 的所有否则将保持孤立的地址。

这一时期的研究的标志是对钱包聚类理论的更批判性审查。越来越清楚的是,在某些情况下,用户的行为可以很容易地可靠地观察到,并且隐私保证远非完美,不仅在理论上,而且还基于越来越多的科学证据。

钱包指纹识别 - 2021-2024

钱包指纹是交易数据中可识别的模式,可能表明使用特定的钱包软件。近年来,研究人员已将钱包指纹识别技术应用于钱包聚类。单个钱包集群通常在使用相同软件的情况下创建,因此任何可观察到的指纹在集群内都应相当一致。3

作为钱包指纹识别的一个简单示例,每个交易都有一个 nLockTime 字段,该字段可用于发布日期后的交易。4 这可以通过指定高度或时间来完成。当不需要发布日期后时,可以使用任何表示过去某个时间点的值,通常为 0,但此类交易在签名时未发布日期后。为了避免暴露预期的行为并解决 费用狙击 问题,某些钱包会随机指定一个较新的 nLockTime 值。但是,由于某些钱包始终指定值为 0,因此当不清楚交易的哪个输出是付款,哪个是找零时,该信息可能会被后续交易泄露。例如,假设与输入币关联的所有交易都指定 nLockTime 为 0,但其中一个输出的支出交易没有,在这种情况下,可以合理地得出结论,该输出是向不同用户的付款。

还有许多其他已知的指纹。Ishaana Misra 的 钱包指纹:检测和分析 是一个全面的描述。

Malte Möser 和 Arvind Narayanan 的 在比特币中恢复地址聚类PDF)将指纹识别应用于聚类问题。他们将其用作改进找零识别的基础。他们依靠指纹来训练和评估使用机器学习技术(随机森林)改进的找零识别。

此后不久,在 如何剥一万:验证和扩展比特币集群PDF)中,George Kappos、Haaroon Yousaf、Rainer Stütz、Sofia Rollet、Bernhard Haslhofer 和 Sarah Meiklejohn 使用链分析公司提供的交易样本的集群数据扩展并验证了此方法,表明钱包指纹识别方法比仅使用 CIOH 和更简单的找零识别启发式方法要准确得多。在聚类时考虑指纹可以使去匿名化更容易。同样,在钱包软件中考虑指纹可以提高隐私。

Kai Wang、Yakun Cheng、Michael Wen Tong、Zhenghao Niu、Jun Pang 和 Weili Han 最近发表的一篇论文 探索未确认的交易以进行有效的比特币地址聚类PDF)分析了交易在确认之前广播的模式。例如,可以通过 替换子为父支付 观察到不同的费用提升行为。这些模式虽然不是严格意义上从交易数据中提取的指纹,但仍然可以被认为是钱包指纹,但更多的是关于与某些钱包软件相关的短暂模式,当连接到比特币 P2P 网络时可以观察到,但在区块链中记录的已确认交易历史中并不明显。

与比特币 P2P 层类似,Lightning 网络的 gossip 层共享有关公开宣布的通道的信息。这通常不被视为钱包指纹,但可以粗略地认为如此,除了闪电交易拥有的链上指纹之外。Lightning 通道是 UTXO,它们形成连接 Lightning 节点的图的边缘,这些节点通过其公钥识别。由于一个节点可能与多个通道相关联,并且通道是币,因此这有点类似于地址重用。5 Christian Decker 公开了历史图数据。Matteo Romiti、Friedhelm Victor、Pedro Moreno-Sanchez、Peter Sebastian Nordholt、Bernhard Haslhofer 和 Matteo Maffei 的 闪电协议中的跨层去匿名化方法PDF)对此背景下的聚类进行了一项研究。

在过去 15 年里,聚类技术得到了显著改进。不幸的是,比特币隐私技术的广泛采用仍然远未成为现实。即使如此,该软件尚未赶上攻击研究的最新水平。

不是全部

正如我们所看到的,从 Satoshi 描述的地址重用和 CIOH 的 humble beginnings 开始,钱包聚类是比特币隐私中的一个基本思想,多年来已经看到了许多发展。大量的学术文献对比特币隐私的一些过于乐观的描述提出了质疑,首先是 WikiLeaks 在 2011 年将捐款描述为匿名的。还有许多机会可以进一步研究和开发隐私保护措施。

需要记住的是,聚类技术只会随着时间的推移而继续改进。“[R]记住:攻击总是会变得更好,永远不会变得更糟。”6 鉴于区块链的性质,交易图中的模式将被永久保存,供任何人或多或少地检查。使用 Electrum 协议的轻量级钱包会将其地址集群泄露给其 Electrum 服务器。将 xpubs 提交给服务的钱包将在单个查询中泄露所有过去和未来交易的聚类信息。鉴于区块链分析行业的性质,专有技术具有显著优势,可能受益于访问 KYC 信息,标记了大部分交易。这种和其他类型的区块链外部聚类信息尤其难以解释,因为与基于链上数据的聚类不同,尽管与第三方共享,但此信息不会公开。因此,这些泄露并不那么容易观察到。

另请记住,控制自己的隐私并不完全掌握在个人手中。当一个用户的隐私丢失时,会降低所有其他用户的隐私。通过消除过程,这表明隐私衰减呈线性进展,在尝试去匿名化其余用户的交易时,每个成功去匿名化的用户都可以被排除为可能的候选者。换句话说,即使你采取预防措施来保护你的隐私,如果没有其他人也采取预防措施,就不会有可供融入的人群。

然而,正如我们将看到的,假设隐私的线性衰减通常过于乐观;指数衰减是一个更安全的假设。这是因为分而治之的策略也适用于钱包聚类,就像在 20 个问题的游戏中一样。CoinJoin 交易旨在混淆 CIOH,下一篇文章的主题将是一篇将钱包聚类与交叉攻击相结合的论文,交叉攻击是从 mixnet 隐私文献中借用的概念,用于去匿名化 CoinJoin。

  • 原文链接: spiralbtc.substack.com/p...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
spiralbtc
spiralbtc
江湖只有他的大名,没有他的介绍。