Lambda 宣布与 Nous Research 合作开发 Psyche,这是一个去中心化的人工智能训练网络,旨在允许任何人使用闲置的计算资源来贡献模型训练,从而使AI开发更加开放、高效和可验证。Psyche 使用 Rust 编写,通过 Solana 区块链协调多个设备上的训练运行,并使用 DisTrO 技术减少节点间的数据交换量。
我们很高兴地宣布与 Nous Research 合作,以帮助开发 Psyche,一个去中心化的人工智能训练网络。该系统旨在允许任何人使用闲置的计算资源来参与模型训练,从而使人工智能开发更加开放、高效和可验证。
这项举措旨在解决人工智能领域一个长期存在的问题:训练成本导致的高进入门槛。构建 Psyche 的目的是为了促进实验、降低基础设施要求,并将控制权从少数中心化参与者手中分散出去。
Psyche 是一个基于Rust的去中心化训练系统,它使用点对点网络来协调跨设备的多个训练运行。它不依赖于中心化数据中心,而是允许拥有空闲机器(例如游戏PC)的个人用户贡献算力来进行模型训练。
节点之间的所有协调都发生在 Solana 区块链上,从而提供了一个容错且抗审查的系统。
Psyche 的实现得益于 DisTrO,这是 Nous Research 开发的一组训练优化器。DisTrO 将训练期间节点之间交换的数据量减少了几个数量级,从而可以通过标准宽带连接进行训练。
这个想法在概念上类似于图像压缩(如 JPEG):模型梯度中的大部分基本信息可以通过仅传输几个低频分量来保留。DisTrO 更进一步,仅传输每个频率幅度的符号,将其量化为一位。这使得数据传输量进一步减少约 3 倍。
此外,节点可以开始训练,而无需立即应用来自上一个训练步骤的更新。这意味着网络延迟不会成为瓶颈,从而提高资源利用率,并使去中心化训练接近中心化系统的效率。
Psyche 的网络由 Iroh 处理,这是一个专为去中心化应用程序设计的协议:
参与训练运行的节点使用 iroh-gossip 共享训练元数据,该元数据建立在 HyParView 和 PlumTree 协议之上。训练结果使用 iroh-blobs 协议共享,该协议将梯度信息捆绑到二进制 blob 中,并通过内容寻址的票证引用它们。
Psyche 中的训练发生在 epochs(训练步骤组)中。节点可以在每个 epoch 的开始或结束时加入或离开网络,从而减少了贡献者的机会成本。
在每个 epoch 的开始,节点下载当前模型(直接从 HuggingFace 仓库或从其他对等方)并开始训练。一些节点充当 witnesses,使用 Bloom 过滤器验证收到的结果。如果保持活动的节点太少或见证仲裁丢失,则训练将暂停并进行检查点,直到新节点加入并恢复该过程。
为了验证节点是否正在正确地进行训练,选定的节点应该重新计算另一个节点执行的训练,并检查生成的梯度是否准确。
由于训练的非确定性性质(来自舍入误差、硬件差异等),系统必须在接受输出中的微小差异与检测实际故障或对抗行为之间找到平衡。正在探索各种相似性度量标准,例如 Jaccard 指数、曼哈顿距离和汉明距离。
当前的人工智能领域由少数拥有大量计算资源的实体所主导。这种中心化限制了谁可以参与开发和引导人工智能的未来。
我们与 Nous Research 在 Psyche 上的合作代表着朝着更加开放和公平的参与迈出的有意义的一步。它允许:
我们认为人工智能应该由每个人拥有。这种合作关系是朝着这个方向迈出的一步。Lambda 将尽可能努力构建新的网络,使去中心化、开放和可验证的人工智能开发具有实用性、可扩展性,并为所有人所用。
- 原文链接: blog.lambdaclass.com/lam...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!