去中心化AI训练：架构、机遇与挑战

Galaxy
发布于 2025-09-16 08:29
阅读 1001

本文深入探讨了去中心化AI训练领域，概述了包括Nous Research、Prime Intellect、Pluralis、Templar和Gensyn在内的多个项目的架构、机遇和挑战，分析了去中心化训练如何利用全球未使用的GPU资源，打破中心化AI实验室的控制，并构建开放、可验证的基础设施。

## 去中心化 AI 训练：架构、机遇和挑战

> 去中心化训练已经从理论走向现实。包括 Nous Research、Prime Intellect、Pluralis、Templar 和 Gensyn 等项目正在全球范围内进行真实的训练。

![](https://img.learnblockchain.cn/2025/09/16/23581028_image.png)

### 介绍

去年，Galaxy Research 发表了其首篇关于 [加密货币和 AI 的交叉领域](https://www.galaxy.com/insights/research/understanding-intersection-crypto-ai) 的文章。它探讨了加密货币的无需信任和无需许可的基础设施如何作为 AI 创新的基础。其中包括：响应图形处理单元 (GPU) 短缺而出现的处理能力（或 **compute**）的去中心化市场；用于可验证的链上推理的零知识机器学习 (zkML) 的早期前景；以及自主 AI 代理简化复杂交互并使用加密货币作为原生交换媒介的潜力。

当时，许多这些举措还处于起步阶段，引人注目的概念验证暗示了相对于中心化产品的实际优势，但尚未扩展到足以重塑 AI 格局。然而，自那以来的这一年里，在使去中心化 AI 成为现实方面取得了有意义的进展。为了抓住这一势头并呈现最有希望的进展，在未来的一年里，Galaxy Research 将发表一系列文章，深入探讨加密货币 x AI 前沿的特定垂直领域。

第一篇文章侧重于去中心化训练，重点介绍了致力于在全球范围内实现基础模型的无需许可训练的项目。 他们的动机是双重的。 实际上，他们认识到世界各地大量未使用的 GPU 可以用于模型训练，从而为世界各地的 AI 工程师开启了一个原本负担不起的过程，并使开源 AI 开发成为现实。 从哲学上讲，这些团队的动力来自于领先的中心化 AI 实验室对我们这个时代最重要的技术革命之一的严格控制，以及创建开放替代方案的迫切需要。

对于更广泛的加密货币领域而言，实现基础模型的去中心化训练和后训练是构建完全链上 AI 堆栈的关键一步，该堆栈在每一层都是无需许可且可访问的。 GPU 市场可以插入模型，以提供训练和推理所需的硬件。 zkML 提供商可用于验证模型输出并保护隐私。 AI 代理可以充当可组合的构建块，将模型、数据源和协议拼接成更高阶的应用程序。

本报告探讨了去中心化 AI 协议的底层架构、它们旨在解决的技术问题以及去中心化训练的前景。 加密货币和 AI 的基本前提与一年前相比没有改变。 加密货币为 AI 提供了一个无需许可、无需信任和可组合的结算层，用于转移价值。 现在的挑战是证明去中心化方法可以提供优于中心化方法的实际优势。

### 模型训练基础知识

在深入研究去中心化训练的最新进展之前，重要的是要基本了解 LLM 及其底层架构。 这将帮助读者了解这些项目的工作原理，以及他们试图解决的主要问题。

#### Transformers

大型语言模型 (LLM)，如 ChatGPT，由一种称为 **transformer** 的架构驱动。 Transformer 在 2017 年 Google 发表的一篇题为“[Attention Is All You Need](https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf)”的论文中被提出，是 AI 开发领域最重要的创新之一。 简而言之，transformer 摄取数据（称为 **tokens**）并应用各种机制来学习这些 token 如何相互关联。

token 之间的关系使用 **weights** 进行建模。 Weights 可以被认为是构成模型的数百万到数万亿个旋钮，并且不断被拨动，直到它能够始终如一地预测序列中的下一个 token。 一旦训练完成，模型就可以基本上捕获人类语言背后的模式和含义。

Transformer 训练的关键组成部分包括：

- **前向传递 (Forward Pass)：** 在训练过程的第一步中，transformer 被馈送来自较大数据集的一批 token。 基于这些输入，模型然后尝试预测下一个 token 应该是什么。 在训练运行开始时，模型的权重是随机的。

- **损失计算 (Loss Computation)：** 前向传递预测然后用于计算 **loss score**，该分数衡量这些预测与馈送到模型的原始数据批次中的实际 token 相差多远。 换句话说，模型在前向传递期间产生的预测结果与用于训练它的较大数据集中的实际 token 相比如何？ 在训练期间，目标是减少这个损失分数，以使模型更准确。

- **反向传递 (Backward Pass)：** 然后，损失分数用于计算每个权重的 **gradient**。 这些 gradient 告诉模型如何调整其权重以在下一次前向传递之前减少损失。

- **优化器更新 (Optimizer Update)：** **optimizer** 算法读取这些 gradient 并调整每个权重以减少损失。

- **重复 (Repeat)：** 重复上述步骤，直到所有数据都被使用完毕并且模型开始达到 **convergence** - 换句话说，当进一步的优化不再显着减少损失或改善性能时。

#### 训练（预训练和后训练）

完整的模型训练过程包括两个离散的步骤：**pre-training** 和 **post-training**。 上述步骤是预训练过程的核心组成部分。 完成后，它们会生成一个预训练的基础模型，通常称为 **foundational model**。

但是，模型通常需要在预训练后进行进一步的改进，称为 **post-training**。 后训练用于以各种方式进一步改进基础模型，包括使其更准确或针对特定用例（例如翻译或医疗诊断）进行定制。

后训练是使 LLM 成为当今强大工具的关键步骤。 后训练中使用几种不同的方法。 其中两种最流行的是：

- **监督微调 (Supervised Fine-tuning, SFT)：** SFT 在很大程度上类似于上述预训练过程。 主要区别在于基础模型是在更精心策划的数据集或提示和答案上进行训练的，因此它学习遵循特定指令或专注于某个领域。

- **强化学习 (Reinforcement Learning, RL)：** RL 不是通过向模型提供新数据来改进模型，而是通过奖励对模型的输出进行评分，并让模型更新其权重以最大化该奖励。 最近，**reasoning models**（如下所述）已使用 RL 来改进其输出。 随着近年来对预训练扩展问题的出现，在后训练中使用 RL 和 reasoning models 已成为一项重大进步，因为它无需额外的数据或大量计算即可有意义地提高模型的性能。

具体而言，RL 后训练非常适合解决去中心化训练中面临的障碍（如下讨论）。 这是因为在 RL 中，大部分时间模型都在使用前向传递（模型进行预测但尚未更改自身）生成大量输出。 这些前向传递不需要机器之间的协调或通信，并且可以异步完成。 它们也是 **parallelizable** 的，这意味着它们可以分解为独立的子任务，这些子任务可以在多个 GPU 上同时执行。 这是因为每个 rollout 都可以独立计算，因此训练运行可以通过简单地添加 **compute** 来扩大吞吐量。 只有在挑选出最佳答案后，模型才会更新其内部权重，从而减少了机器需要同步的频率。

一旦模型经过训练，使用它来生成输出的过程称为 **inference**。 与涉及调整数百万或数十亿个权重的训练不同，**inference** 会保持这些权重不变，并简单地将其应用于新的输入。 对于 LLM 来说，**inference** 意味着获取一个提示，通过模型的层运行它，并逐步预测最有可能的下一个 token。 因为 **inference** 不需要 **backpropagation**（基于模型的错误调整模型权重的过程）或权重更新，所以它比训练所需的计算量要少得多，但由于现代模型的庞大规模，它仍然是资源密集型的。

简而言之：**Inference** 为聊天机器人、代码助手和翻译工具等应用程序提供动力。 这是模型将其“学到的知识”付诸实践的阶段。

#### 训练开销

促进上述训练过程是资源密集型的，并且需要高度专业化的软件和硬件才能大规模进行。 世界领先的 AI 实验室已经在以前所未有的水平上花费，从数亿美元到数十亿美元不等。 OpenAI 首席执行官 Sam Altman [表示](https://www.forbes.com/sites/katharinabuchholz/2024/08/23/the-extreme-cost-of-training-ai-models/)，GPT-4 的训练成本超过 [1 亿美元](https://hai.stanford.edu/ai-index/2025-ai-index-report/research-and-development)，而 Anthropic 的首席执行官 Dario Amodei [表示](https://fortune.com/2024/04/04/ai-training-costs-how-much-is-too-much-openai-gpt-anthropic-microsoft/)，训练运行已超过 [10 亿美元](https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-models-that-cost-dollar1-billion-to-train-are-in-development-dollar100-billion-models-coming-soon-largest-current-models-take-only-dollar100-million-to-train-anthropic-ceo)，并且已经在进行中。

这些成本的主要份额来自 GPU。 顶级的 GPU，例如 NVIDIA 的 H100 或 B200，每个单元的成本可能高达 30,000 美元以上，据报道，OpenAI 计划到 2025 年底部署超过 [100 万个 GPU](https://x.com/sama/status/1947057625780396512)。 但是，原始 GPU 能力是不够的。 这些系统必须部署在配备超高速通信基础设施的高性能数据中心中。 诸如 NVIDIA NVLink 之类的技术可以在服务器内的 GPU 之间实现快速数据交换，而 InfiniBand 连接服务器集群，使它们可以充当单个统一的 **compute** 结构。

![带有 NVLin 的示例 DGX H100 架构](https://img.learnblockchain.cn/2025/09/16/38257016_image.png)

_带有 NVLink 的示例 DGX H100 架构_（浅绿色矩形）_在系统内部连接 GPU，而 InfiniBand 将服务器_（绿色线）_连接到统一的结构中。_（[来源](https://learnblockchain.cn/article/20821)。）

因此，大多数基础模型都是由中心化 AI 实验室开发的，例如 OpenAI、Anthropic、Meta、Google 和 xAI。 只有这样的庞然大物才拥有训练所需的充足资源。 虽然这导致了模型训练和性能方面的重大突破，但也导致了对领先基础模型开发的控制权仅集中在少数几个实体手中。[证据](https://www.deeplearning.ai/the-batch/ai-giants-rethink-model-training-strategy-as-scaling-laws-break-down/) 表明，扩展规律可能正在发挥作用，从而限制了仅仅添加 **compute** 或数据以增强预训练模型的智能的有效性。

作为回应，在过去的几年中，一群 AI 工程师已经开始开发新的模型训练方法，试图解决这些技术复杂性并减少大量的资源需求。 就本文而言，这种努力将被称为 **decentralized training**。

#### 去中心化训练和分布式训练

比特币的成功已经证明，可以以去中心化的方式协调计算和资本，以保护大型经济网络。 去中心化训练旨在利用加密货币的特性，包括无需许可、无需信任和激励机制，以构建去中心化网络，这些网络可以训练与中心化提供商相当的强大的基础模型。

在去中心化训练中，世界各地不同位置的节点在无需许可、激励的网络上工作，以促进 AI 模型的训练。 这与 **distributed training** 形成对比，**distributed training** 指的是在不同地理位置训练的模型，但由已经获得许可的单个或多个实体（即，通过白名单过程）进行训练。 但是，要使去中心化训练存在，分布式训练必须是可行的。 许多中心化实验室认识到对其训练设置的严格限制，已经开始探索实现分布式训练的方法，该方法可以产生与其现有设置相当的结果。

有一些实际的障碍阻止了去中心化训练成为现实：

- **通信开销 (Communication Overhead)：** 当节点在地理上分离时，它们无法访问上述通信基础设施。 去中心化训练需要考虑标准互联网速度、大量数据的频繁传输以及训练过程中 GPU 的同步。

- **验证 (Verification)：** 去中心化训练网络本质上是无需许可的，旨在让任何人贡献 **compute**。 因此，它们必须开发验证机制，以防止贡献者试图通过不正确的或恶意的输入来破坏网络，或者通过在不贡献生产性工作的情况下玩弄系统来获得激励。

- **计算 (Compute)：** 无论规模如何，去中心化网络还必须聚合足够的 **compute** 来训练模型。 虽然在某些方面这发挥了去中心化网络的优势，因为这些网络旨在让任何拥有 GPU 的人都可以为训练过程做出贡献，但它也引入了复杂性，因为这些网络必须协调异构 **compute** 。

- **激励措施/资金/所有权和货币化 (Incentives/Funding/Ownership and Monetization)：** 去中心化训练网络必须设计激励机制和所有权/货币化模型，以有效地确保网络的完整性，并奖励 **compute** 提供商、验证者和模型设计者所做的贡献。 这与中心化实验室形成直接对比，在中心化实验室中，一家公司构建模型并将其货币化。

尽管存在这些限制，但许多项目仍在进行去中心化训练，因为他们认为基础模型的控制权不应掌握在少数公司手中。 他们的目标是解决中心化训练带来的风险，例如由于依赖少数几个中心化产品而导致的单点故障； 数据隐私和审查； 可扩展性； 以及 AI 对齐和偏差。 更广泛地说，他们认为开源 AI 开发是必需品，而不是可有可无的东西。 如果没有开放、可验证的基础设施，创新将会受到扼杀，访问权限将仅限于少数特权人士，并且社会将继承由狭隘的公司激励措施塑造的 AI 系统。 在这种观点看来，去中心化训练不仅是关于构建有竞争力的模型，而且还关于创建一个具有弹性、透明和参与性的生态系统，该生态系统反映集体的利益而不是专有利益。

### 项目概览

下面，我们深入概述了为几个去中心化训练项目提供支持的底层机制。

![Nous Research 里程碑](https://img.learnblockchain.cn/2025/09/16/35003952_image.jpg)

#### Nous Research

##### 背景

Nous Research 成立于 2022 年，是一家开源 AI 研究组织。 该团队最初是一个非正式的开源 AI 研究人员和开发人员团体，致力于寻找解决开源 AI 代码局限性的解决方案。[使命](https://www.youtube.com/watch?v=X4tZykXwl8c) 是“创建并开放最好的模型”。

早期，该团队将去中心化训练确定为主要障碍。 具体而言，他们认识到，用于协调 GPU 之间通信的 GPU 和工具的访问权限主要是为适应大型中心化 AI 公司而开发的，几乎没有为资源有限的组织参与有意义的开发留下空间。 例如，NVIDIA 的最新 [Blackwell GPU](https://resources.nvidia.com/en-us-tensor-core/nvidia-blackwell-architecture-whitepaper)（例如 B200）可以使用 NVLink Switch System 以高达每秒 1.8 TB 的速度相互通信。 这与主要互联网基础设施的总带宽相当，并且只有在中心化、数据中心规模的部署中才有可能实现，这使得较小或分布式网络几乎不可能在不重新考虑通信策略的情况下与大型 AI 实验室的性能相媲美。

在解决去中心化训练之前，Nous 通常对 AI 领域做出了重大贡献。 2023 年 8 月，Nous [发布](https://arxiv.org/pdf/2309.00071) 了“YaRN：大型语言模型的有效上下文窗口扩展”。 本文解决了一个简单但重要的问题：大多数 AI 模型一次只能记住和处理固定数量的文本（它们的“上下文窗口”）。 例如，如果给定的文档更长，则使用 2,000 个单词限制训练的模型会很快开始忘记或丢失信息。 YaRN 引入了一种在不从头开始重新训练模型的情况下，将此限制扩展得更远的方法。 它调整了模型跟踪单词位置的方式（就像书中的书签一样），以便即使文本长达数万个单词，它仍然可以遵循信息的流动。 该方法允许模型处理多达 128,000 个 token 的序列 - 大约相当于马克·吐温的“[哈克贝利·费恩历险记](https://www.gutenberg.org/files/76/76-h/76-h.htm)”的长度 - 同时使用比旧方法少得多的计算能力和训练数据。 简而言之，YaRN 使 AI 模型可以一次“阅读”和理解更长的文档、对话或数据集。 这是扩展 AI 功能的重要一步，此后已被更广泛的研究社区采用，包括 [OpenAI](https://x.com/Teknium1/status/1951228980377588019) 和中国的 [Deepseek](https://x.com/Teknium1/status/1937373884610936854)。

##### DeMo 和 DisTrO

2024 年 3 月，Nous 发布了分布式训练方面的一项突破，名为解耦动量优化 (DeMo)。 DeMo 由 Nous 研究人员 Bowen Peng 和 Jeffrey Quesnelle 与 Diederik P. Kingma（OpenAI 的联合创始人兼 AdamW 优化器的发明者）合作开发。 它是 Nous 去中心化训练堆栈中的一个主要构建块，通过减少 GPU 之间交换的数据量来减少分布式 **data-parallel** 模型训练设置中的通信开销。 在 **data-parallel** 训练中，每个节点保留模型权重的完整副本，但数据集被分成由不同节点处理的块。

AdamW 是模型训练中最常用的优化器之一。 AdamW 的一个关键功能是平滑称为 **momentum** 的东西，它是模型权重过去变化的运行平均值。 实际上，AdamW 有助于消除 **data-parallel** 训练过程中引入的噪声，以提高训练效率。 Nous Research 基于 AdamW 构建了 DeMo，创建了一种新的优化器，该优化器将 **momentum** 分为不同训练器中的本地部分和共享部分。 这通过限制节点必须相互共享的数据量来减少节点之间所需的通信量。

DeMO 选择性地关注每个 GPU 每次迭代中变化最快的参数。 逻辑很简单：正在发生巨大变化的参数对于学习至关重要，并且应该以更高的优先级在工作人员之间同步。 同时，变化较慢的参数可以暂时滞后，而不会显着损害收敛。 实际上，这会过滤掉嘈杂的更新，同时纳入最有意义的更新。 Nous 还采用了压缩技术，包括一种类似于 JPEG 缩小图像的方法，称为离散余弦变换 (DCT)，以进一步减少发送的数据量。 通过仅同步最重要的更新，DeMO 将通信开销减少了 10 倍到 1,000 倍，具体取决于模型的大小。 有关底层优化的完整技术概述，请参阅 Nous Research 的这篇 [博客文章](https://learnblockchain.cn/article/20823/)。

2024 年 6 月，Nous 团队推出了他们的第二个主要创新，名为分布式训练优化器 (DisTro)。 虽然 DeMo 提供了核心优化器创新，但 DisTrO 将其纳入了更广泛的优化器框架中，该框架进一步压缩了 GPU 之间共享的信息，并解决了 GPU 同步、容错和负载平衡等问题。 2024 年 12 月，Nous 通过利用 DisTro 在 LlaMA 风格的架构上训练了一个 150 亿参数的模型，证明了这种方法的可行性。

##### Psyche

今年 5 月，Nous [发布](https://x.com/NousResearch/status/1883912370696704011) 了 Psyche，这是一个用于协调去中心化训练的框架，该框架进一步创新了 DeMO 和 DisTrO 优化器架构。 Psyche 中值得注意的技术升级包括通过使 GPU 能够在开始下一步训练时发送模型更新来改进异步训练。 这最大限度地减少了空闲时间，并使 GPU 利用率更接近于中心化、紧密集成的系统。 Psyche 还进一步改进了 DisTro 引入的压缩技术，将通信负载减少了额外的 3 倍。

可以使用完全链上（通过 Solana）或链下设置来实现 Psyche。 它有三个主要参与者：**coordinator**、**clients** 和 **data providers**。 **coordinator** 保存着促进训练运行所需的所有信息，包括模型的最新状态、参与的 **clients** 以及数据和输出验证的分配。 **clients** 是在训练运行期间执行训练任务的实际 GPU 提供商。 除了模型训练之外，他们还参与目击过程（如下所述）。 **data providers**（**clients** 可以自己托管）提供训练所需的数据。

![具有 Solana 角色的 Nous 架构](https://img.learnblockchain.cn/2025/09/16/94692715_image.jpeg)

[_Nous Psyche 训练架构_](https://x.com/NousResearch/status/1922744483571171605/photo/1)

Psyche 将训练分为两个不同的时间间隔，**epochs** 和 **steps**。 这为 **clients** 创建了自然的进入和退出点，使他们能够在不提交完整训练运行的情况下参与。 这种结构有助于最大限度地减少 GPU 提供商的机会成本，这些提供商可能无法在运行的整个持续时间内投入其资源。

在 **epoch** 开始时，**coordinator** 定义关键参数：模型架构、要使用的数据集以及所需的 **clients** 数量。 接下来是一个简短的预热阶段，**clients** 从公共来源或来自其他 **clients** 的点对点同步到最新的模型检查点。 一旦训练开始，每个 **client** 都会被分配一部分数据并在本地执行训练步骤。 在计算更新后，**client** 会将其结果广播到网络的其余部分，以及加密承诺（证明工作已正确完成的 SHA-256 哈希）。

**clients** 的一个子集被随机选择在每一轮中充当 **witnesses**，并充当 Psyche 的主要验证机制。 这些 **witnesses** 像往常一样进行训练，但也会验证收到了哪些 **client** 更新以及哪些是有效的。 他们向 **coordinator** 提交 **Bloom filters**，这是一种轻量级数据结构，可以有效地总结这种参与情况。 虽然 Nous 本身承认这种方法是不完善的，因为它可能会产生误报，但研究人员愿意接受这种权衡以提高效率。 一旦给定更新达到法定数量的 **witness** 确认，**coordinator** 会将更新应用于全局模型，并允许所有 **clients** 在继续下一轮之前同步其模型。

至关重要的是，Psyche 旨在允许训练和验证重叠。 一旦 **client** 提交其更新，它就可以立即开始训练下一批，而不必等待 **coordinator** 或其他 **clients** 完成其上一轮。 这种重叠设计以及 DisTrO 的压缩确保通信开销保持在最低限度，并且 GPU 不会处于空闲状态。

![Nous Research Psyche](https://img.learnblockchain.cn/2025/09/16/62952248_image.png)

[_训练过程中 **Client** 交互工作流程_](https://nousresearch.com/nous-psyche/)

2025 年 5 月，Nous Research 发起了迄今为止最大的训练运行：一致性，这是一个 400 亿参数的 **transformer**，正在通过 Psyche 的去中心化训练网络在约 20 万亿个 token 上进行预训练。 训练仍在进行中。 到目前为止，运行基本上是平稳的，但出现了一些损失峰值，表明优化轨迹短暂地偏离了收敛。 作为回应，该团队回滚到最后一个健康的检查点，并使用 OLMo 的 Skip-Step 保护措施包装了优化器，该保护措施会自动跳过任何损失或梯度范数与平均值相差几个标准差的更新，从而降低了未来损失峰值的风险。

##### Solana 的作用

虽然 Psyche 可以在链下环境中运行，但它旨在在 Solana 区块链上使用。 Solana 充当训练网络的信任和问责层，记录链上的 **client** 承诺、**witness** 证明和训练元数据。 这为每一轮训练创建了一个不可变的审计跟踪，从而可以透明地验证谁做出了贡献、完成了哪些工作以及是否通过了验证。

Nous 还计划使用 Solana 来促进训练奖励分配。 虽然该项目尚未发布正式的 token 经济学，但 Psyche 文档概述了一个系统，该系统将跟踪 **client compute** 贡献并根据经过验证的工作分配积分。 然后，可以使用财务主管智能合约将这些积分兑换为 token，该合约充当链上托管。 完成有效训练步骤的 **clients** 可以根据他们的贡献直接从此合约中领取奖励。 Psyche 尚未在训练运行中使用奖励机制，但该系统预计将在 Nous 加密 token 正式启动后在分配中发挥核心作用。

##### Hermes 模型系列

除了这些研究成果之外，Nous 还通过其 Hermes 系列指令调整 LLM 确立了自己作为领先的开源模型开发商的地位。 2024 年 8 月，该团队推出了 Hermes-3，这是一套在 Llama 3.1 上进行完整参数微调的工具，在公开排行榜上取得了有竞争力的结果，尽管规模相对适中，但仍将其与更大的专有模型并列。

最近，在 2025 年 8 月，Nous 推出了 Hermes-4，这是迄今为止最先进的模型系列。 Hermes-4 专注于使模型在逐步推理方面变得更好，同时在通用指令跟随方面仍然表现出色。 它在数学、编码、理解和常识测试中显示出强大的结果。 为了实现 Nous 的开源使命，该团队公开发布了所有 Hermes-4 模型权重，供任何人使用和构建。 此外，Nous 还发布了一个名为 [Nous Chat](https://hermes4.nousresearch.com/) 的模型的可访问界面，在发布后的第一周免费提供访问。

Hermes 模型的发布不仅巩固了 Nous 作为模型构建组织的信誉，而且也为更广泛的研究议程提供了实践验证。 每次 Hermes 发布都提供了证据，表明可以在开放环境中实现最先进的功能，为团队的去中心化训练突破（DeMo、DisTrO 和 Psyche）奠定了基础，并最终实现了雄心勃勃的 Consilience 40B 运行。

##### Atropos

如上所述，由于推理模型的进步和预训练的扩展限制，RL 在后训练中发挥着越来越重要的作用。 Atropos 是 Nous 在去中心化环境中解决 RL 的方案。 这是一个用于 LLM 的即插即用模块化 RL 框架，可以适应不同的 **inference** 后端、训练方法、数据集和 RL 环境。

当使用大量 GPU 以去中心化的方式进行 RL 后训练时，模型在训练过程中生成的提示输出将具有不同的完成时间。 Atropos 充当 **rollout handler**，即用于协调跨设备的任务生成和完成的中央编排器，从而实现异步 RL 训练。

Atropos 的初始版本于 4 月发布，但目前仅包含一个用于协调 RL 任务的环境框架。 Nous 计划在未来几个月内发布补充的训练和 **inference** 框架。

#### Prime Intellect

##### 背景

Prime Intellect 成立于 2024 年，是一家致力于构建大规模去中心化 AI 开发基础设施的公司。 该团队由 Vincent Weisser 和 Johannes Hagemann 共同创立，最初专注于聚合来自中心化和去中心化提供商的计算资源，以支持高级 AI 模型的协作式分布式训练。 其使命是 democratize AI 开发，使全球的研究人员和开发人员能够访问可扩展的 **compute** 并集体拥有开放的 AI 创新。

##### OpenDiLoCo、Intellect-1 和 PRIME

2024 年 7 月，Prime Intellect [发布](https://www.primeintellect.ai/blog/opendiloco) 了 OpenDiLoCo，这是由 Google 的 DeepMind 为数据并行训练开发的低通信模型训练方法 [DiLoCo](https://deepmind.google/research/publications/57039/) 的开源版本。 Google 根据 [the view](https://arxiv.org/pdf/2311.08105) 开发了该模型，即“在现代规模下，通过标准反向传播进行训练带来了前所未有的工程和基础设施挑战……很难并置和紧密同步大量的加速器。” 虽然此声明侧重于大规模训练的实用性，而不是开源开发的精神，但它默认承认了长期中心化训练的局限性以及对分布式替代方案的需求。

DiLoCo 降低了 GPU 训练模型之间共享信息的频率和数量。 在中心化设置中，GPU 在每次训练步骤后都会相互共享所有更新的梯度。 在 DiLoCo 中，更新的梯度共享频率较低，以减少通信开销。 这创建了一个双重优化架构，其中单个 GPU（或 GPU 集群）运行 **inner optimization**，该 **inner optimization** 在每个步骤后更新其自身模型上的权重，以及 **outer optimization**，其中 **inner optimization** 在 GPU 之间共享，然后所有 GPU 使用所做更改的聚合进行更新。

在其初始版本中，OpenDiLoCo 展示了 90% 到 95% 的 GPU 利用率，这意味着尽管机器分布在两个大陆和三个国家/地区，但几乎没有机器处于空闲状态。 OpenDiLoCo 能够重现可比的训练结果和性能，它依赖的通信量减少了 500 倍（如下面的紫色线条赶上蓝色线条所证明），相比于中心化对应物。 有关训练过程的可视化表示，请观看由 Prime Intellect 团队发布的演示 OpenDiLoCo 实际应用情况的 [视频](https://www.youtube.com/watch?v=GtmSNEz_Tlk)。

![Prime Intellect 困惑度](https://img.learnblockchain.cn/2025/09/16/69491775_image.png)

_纵轴表示困惑度，这是一种衡量模型预测序列中下一个 token 的能力。 较低的困惑度意味着模型对其预测更有信心和准确。 来源：_[_Prime Intellect_](https://www.primeintellect.ai/blog/opendiloco) _._

2024 年 10 月，Prime Intellect 开始训练 INTELLECT-1，这是第一个以分布式方式训练的 100 亿参数语言模型。 训练耗时 42 天，之后该模型开源。 它在三个大陆和五个国家/地区进行。 训练运行证明了分布式训练的逐步改进，所有 **compute** 的利用率为 83%，仅在美国境内节点之间通信的利用率为 96%。 该项目的 GPU 来源于 Web2 和 Web3 提供商，包括 Akash、Hyperbolic 和 Olas 等加密 GPU 市场。

INTELLECT-1 使用了 Prime Intellect 的新训练框架 PRIME，该框架允许 Prime Intellect 训练系统在 **compute** 意外地进入和离开正在进行的训练运行时进行调整。 它引入了诸如 ElasticDeviceMesh 等创新，使贡献者可以即时加入或退出。

![Prime Intellect 活动训练节点](https://img.learnblockchain.cn/2025/09/16/20594149_image.png)

_训练步骤中的活动训练节点，展示了训练架构处理动态节点参与的能力。_ [_来源：Prime Intellect_](https://www.primeintellect.ai/blog/intellect-1-release#scaling-decentralized-training)

INTELLECT-1 是对 Prime Intellect 的去中心化训练方法的重大验证，并得到了 AI 思想领袖（如 Anthropic 的联合创始人 Jack Clark）的赞扬，认为它是去中心化训练的可行演示。

##### 协议

2 月，Prime Intellect 通过引入 Protocol 在其堆栈中添加了另一层。 Protocol 将 Prime Intellect 的所有训练工具联系在一起，以创建用于去中心化模型训练的对等网络。 这包括：

- 用于 GPU 为训练运行做出贡献的 **compute** 交换。

- PRIME 训练框架，可减少通信开销并提高容错能力。

- 一个名为 GENESYS 的开源库，用于合成数据生成和验证，这在 RL 微调中非常有用。

- 一个名为 TOPLOC 的轻量级验证系统，用于验证来自参与节点的模型执行情况和输出。

Protocol 发挥着与 Nous 的 Psyche 类似的作用，并且有四个主要参与者：

- Workers：使人们能够为其训练或其他 Prime Intellect AI 相关产品贡献他们的 **compute** 资源的软件。

- Validators：验证 **compute** 和工作的贡献，以防止恶意行为。 Prime Intellect 正在努力将最先进的 **inference** 验证算法 TOPLOC 适应于去中心化训练。

- Orchestrator：计算池创建者管理工作者的一种方式。 这履行了与 Nous 的 orchestrator 类似的角色。- 智能合约：跟踪谁提供了计算，削减不良行为者的权益，并自主支付奖励。目前在以太坊 L2 Base 的 Sepolia 测试网上运行，但 Prime Intellect 已经[声明](https://www.primeintellect.ai/blog/protocol)其最终将过渡到自己的链上。

![Prime Intellect 协议训练](https://img.learnblockchain.cn/2025/09/16/79280372_image.png)

**协议**训练，一步一步。来源：**Prime Intellect**

协议旨在最终让贡献者拥有模型的一部分权益，或因其工作获得奖励；同时为开源 AI 项目提供通过智能合约和集体激励来资助和管理开发的新方式。

##### INTELLECT 2 和强化学习

4 月，Prime Intellect 开始训练一个名为 INTELLECT-2 的 320 亿参数模型。虽然 INTELLECT-1 专注于训练一个基础模型，但 INTELLECT-2 使用 RL 在另一个开源模型（阿里巴巴的 QwQ-32B）上训练一个推理模型。

该团队引入了两个关键的基础设施组件，以使这种去中心化 RL 训练成为可能：

- PRIME-RL，一个完全异步的强化学习框架，将过程分为三个独立的阶段：生成候选答案；基于选定的答案进行训练；以及广播更新后的模型权重。这种解耦允许系统在不可靠、缓慢或地理上分散的网络中工作。训练使用了 Prime Intellect 的另一项创新 GENESYS，用于生成数千个数学、逻辑和编码问题，以及可以立即评分答案是否正确的自动检查器。

- SHARDCAST，一种新的系统，用于在网络上快速分发大型文件（例如更新后的模型权重）。SHARDCAST 没有让每台机器从中央服务器下载更新，而是使用一种结构，让机器彼此共享更新。这保持了网络的效率、速度和弹性。

![INTELLECT-2](https://img.learnblockchain.cn/2025/09/16/44054707_image.png)

Intellect-2 分布式 RL 训练基础设施。（来源：[Prime Intellect](https://www.primeintellect.ai/blog/intellect-2)）

对于 INTELLECT-2，贡献者还需要质押测试网加密代币才能参与训练运行。如果他们贡献了有效的工作，将会自动获得奖励。如果没有，他们的质押可能会被削减。虽然在这次测试运行中没有涉及真金白银，但它突显出正在发生一些早期的加密经济实验。在这个领域需要进行更多的实验，我们预计加密经济学在安全和激励方面的使用方式将发生进一步的变化。除了 INTELLECT-2，Prime Intellect 还在继续进行几个未在本报告中涵盖的主要项目，包括：

- **SYNTHETIC-2**，下一代生成和验证推理任务的框架；

- **Prime Collective Communications Library**，它实现了高效且容错的集体通信操作，例如通过 IP 进行[规约](https://learnblockchain.cn/article/20822)，并提供共享状态同步机制，以保持对等点同步，并允许在训练期间随时动态加入和离开对等点，以及自动带宽感知拓扑优化；

- 持续增强 TOPLOC，以实现可扩展、低成本的推理证明，从而验证模型输出；以及

- 基于 INTELLECT2 和 SYNTHETIC1 的经验教训，改进 Prime Intellect 的协议和加密经济层

#### Pluralis Research

Alexander Long 是新南威尔士大学的澳大利亚机器学习研究员，拥有博士学位，他认为开源模型训练过度依赖于领先的 AI 实验室提供的基础模型，供其他人进行训练。2023 年 4 月，他成立了 Pluralis Research，旨在开辟一条不同的道路。

Pluralis Research 采用一种名为协议学习的方法来处理去中心化训练，该方法被描述为“低带宽、异构多参与者、模型并行训练和推理”。Pluralis 的一个主要区别特征是其经济模型，该模型让训练模型的贡献者获得类似于股权的回报，以激励计算贡献并吸引顶级的开源软件研究人员。该经济模型基于“不可提取性”的核心属性：没有任何一个参与者可以获得完整的权重集，而这又与训练方法和模型并行性的使用相关联。

##### 模型并行性

Pluralis 的训练架构利用了**模型并行性**，这与 Nous Research 和 Prime Intellect 在其初始训练运行中实现的数据并行方法不同。随着模型规模的增长，即使是 H100 机架（最先进的 GPU 设置之一）也不足以容纳整个模型。模型并行性通过将单个模型的各个组件分布到多个 GPU 上，从而引入了一种解决此问题的方法。

模型并行性主要有三种方法。

- 流水线并行性：模型的层被分配到不同的 GPU 上。每个小批量的数据像装配线一样流经这些 GPU 进行训练。

- 张量（层内）并行性：不是给每个 GPU 完整的层，而是将每个层中的繁重计算分开，以便多个 GPU 同时分担单个层的工作。

- 混合并行性：在实践中，大型模型混合使用各种方法，将流水线并行性和张量并行性结合使用，通常与数据并行性结合使用。

模型并行性是分布式训练的一项重要进步，因为它允许训练[前沿规模](https://law-ai.org/frontier-model-definitions/)的模型，使较低级别的硬件能够参与，并确保没有任何一个参与者可以访问完整的模型权重集。

##### 协议学习和协议模型

协议学习是 Pluralis 在去中心化训练环境中进行模型所有权和货币化的框架。Pluralis 强调了构成协议学习框架的三个关键原则——去中心化、激励和无需信任。

Pluralis 与其他项目的主要区别在于它专注于模型所有权。鉴于模型主要从其权重中获得价值，协议模型 (PM) 试图以这样一种方式分割模型的权重，即模型训练过程中的任何一个参与者都无法获得完整的权重集。最终，这将使训练模型的每个贡献者都拥有所有权，从而获得模型产生的收入份额。

![Pluralis 训练设置](https://img.learnblockchain.cn/2025/09/16/27166526_image.png)

**按训练设置（开放与封闭数据）和模型权重可用性（开放与封闭）对不同语言模型进行定位。来源：Pluralis**

这是一种与之前的例子截然不同的去中心化模型经济学方法。其他项目通过提供资金池来激励贡献，该资金池根据特定衡量标准（通常是贡献的时间或计算能力）在训练周期内分配给贡献者。Pluralis 的贡献者会受到激励，只将他们的资源投入到他们认为最有可能成功的模型中。训练一个表现不佳的模型将是计算、能源和时间的浪费，因为表现不佳的模型不会产生任何收入。

这与之前的方法有两个不同之处。首先，它不需要想要训练模型的人筹集初始资金来支付给贡献者，从而降低了模型训练和开发的准入门槛。其次，它可能更好地协调了模型设计者和计算提供商之间的激励机制，因为两者都希望模型的最终版本是尽可能最好的版本，以确保其成功。它还为模型训练专业化创造了可能性。例如，可能存在风险承受能力更强的训练师，他们为早期/实验性模型提供计算，以寻求更大的回报（类似于风险投资家），而不是仅针对具有更高采用机会的成熟模型（类似于私募股权投资者）的计算提供商。

虽然 PM 可能代表了去中心化训练货币化和激励方面的一项重大突破，但 Pluralis 尚未详细说明其将如何实施。鉴于该方法的高度复杂性，悬而未决的问题包括如何分配模型的所有权、分配收入，甚至管理模型的未来升级或用例。

##### 去中心化训练创新

除了经济方面的考虑之外，协议学习还面临着与其他去中心化训练项目相同的核心挑战，即使用具有通信约束的异构 GPU 网络训练大型 AI 模型。

6 月，Pluralis [宣布](https://x.com/PluralisHQ/status/1929916173530849439)成功训练了一个基于 Meta 的 Llama 3 架构的 80 亿参数 LLM，并发布了其协议模型[论文](https://x.com/PluralisHQ/status/1929916173530849439)。在其中，Pluralis 展示了如何减少进行模型并行训练的 GPU 之间的通信开销。它通过将流经每个 transformer 层的信号限制在一个微小的、预先选择的子空间来实现这一点，从而将正向和反向传递压缩多达 99%，从而使网络流量减少 100 倍，而不会损害准确性或增加明显的开销。简而言之，Pluralis 找到了一种方法，可以将相同的学习信息压缩到早期方法所需带宽的一小部分中。

这是第一次去中心化训练运行，其中模型本身是跨通过低带宽连接的节点分割的，而不是被复制的。该团队在分布在四大洲的低端消费级 GPU 上成功训练了一个 80 亿参数的 Llama 模型，这些 GPU 仅通过普通的 80 兆字节/秒的家庭互联网链路连接。在论文中，Pluralis 证明该模型收敛得非常好，就像在 100 Gb/s 的数据中心集群上运行时一样。在实践中，这意味着大规模的模型并行去中心化训练现在是可行的。

最后，7 月，Pluralis 发表的一篇关于流水线并行训练的异步训练[论文](https://x.com/PluralisHQ/status/1944552899343986777)被 ICML（领先的 AI 会议之一）接受。流水线并行训练在互联网上而不是在高速数据中心进行时，也面临着通信瓶颈，因为节点本质上像装配线一样运行，每个连续节点都在等待前一个节点更新模型。这会导致过时的梯度和延迟的信息传输。SWARM 是论文中展示的去中心化训练框架，它消除了通常将日常 GPU 排除在训练之外的两个经典瓶颈：内存容量和严格同步。它们的消除可以更好地利用所有可用的 GPU，加快训练速度并降低成本，所有这些对于使用分布式、基于志愿者的基础设施扩展大型模型至关重要。有关此过程的简要说明，请观看 Pluralis 的这段[视频](https://x.com/PluralisHQ/status/1944564275995189508)。

展望未来，Pluralis [表示](https://x.com/PluralisHQ/status/1929917164342952400)计划很快启动一次实时训练运行，任何人都可以参与，但尚未确定日期。此次发布将让人们更深入地了解尚未发布的协议方面，特别是经济模型和加密基础设施。

#### Templar

##### 背景

Templar 于 2024 年 11 月推出，是 Bittensor 协议子网上一个由激励驱动的去中心化 AI 任务市场。它最初是一个实验性框架，用于汇集全球 GPU 资源，用于无需许可的 AI 预训练，旨在通过 Bittensor 的代币化激励来重新定义 AI 开发，使其大规模模型训练具有可访问性、安全性和弹性。

从一开始，Templar 就接受了在互联网上为 LLM 预训练协调去中心化训练的挑战。这是一项艰巨的任务，因为延迟、带宽限制和异构硬件使得分布式参与者难以与中心化集群的效率相匹配，而在中心化集群中，无缝的 GPU 通信可以快速迭代海量模型。

最关键的是，Templar 优先考虑真正无需许可的参与，允许任何拥有计算资源的人参与 AI 训练，而无需批准、注册或把关。这种无需许可的方法是 Templar 民主化 AI 开发使命的基础，因为它确保突破性的 AI 功能不会被少数几个中心化实体控制，而是可以来自全球性的开放协作。

##### 在 Templar 上训练

Templar 使用数据并行性进行训练，其中有两个主要参与者：

- 矿工**：** 这些参与者执行训练任务。每个矿工与最新的全局模型同步，获取唯一的数据分片，使用正向和反向传递在本地进行训练，使用自定义 CCLoco 优化器（如下所述）压缩梯度，并提交梯度更新。

- 验证者：验证者下载并解压缩矿工提交的更新，将其应用于本地模型副本，并计算**损失增量**，这是一种衡量模型改进程度的指标。这些增量用于通过 Templar 的 Gauntlet 系统对矿工的贡献进行评分。

为了处理通信开销，Templar 的研究团队首先开发了 Chunk Compressed DiLoCo (CCLoco)。与 Nous 类似，CCLoco 改进了通信高效的训练技术，例如 Google 的 DiLoCo 框架，从而使节点间通信成本降低了几个数量级，同时减少了此类方法通常导致的损失退化。CCLoco 不是每一步都发送完整的更新，而是在设定的时间间隔内仅共享最重要的更改，并保持一个小的运行总计，这样就不会丢失任何有意义的内容。该系统在一个基于竞争的模型上运行，矿工受到激励提供低延迟更新以赚取奖励。为了获得奖励，矿工必须通过部署高效的硬件来跟上网络的步伐。这种竞争结构旨在确保只有能够维持足够性能的参与者才能为训练过程做出贡献，而轻量级的健全性检查会过滤掉明显不良或格式错误的更新。8 月，Templar 正式[发布](https://x.com/amir_sarfi/status/1958714182750077215)了更新后的训练架构，并将其重命名为 SparseLoCo。

验证者使用 Templar 的 Gauntlet 系统来跟踪和更新每个矿工的技能评级，该评级基于对减少模型损失的贡献所观察到的结果。使用一种名为 OpenSkill 的技术，具有一致、有影响力的更新的高质量矿工会获得更高的技能评级，从而提高他们对模型聚合的影响力，并赚取更多的 TAO，这是 Bittensor 网络的原生代币。评级较低的矿工会在聚合期间被丢弃。评分后，质押最高的验证者会聚合来自排名最高的矿工的更新，签署新的全局模型，并将其发布到存储。矿工可以使用此版本的模型来赶上进度（如果他们不同步）。

![Templar 去中心化训练架构](https://img.learnblockchain.cn/2025/09/16/74687708_image.jpg)

**Templar 去中心化训练架构。来源：Templar 团队。**

迄今为止，Templar 已经启动了三次训练运行：Templar I、Templar II 和 Templar III。Templar I 是一个 12 亿参数的模型，涉及全球近 200 个 GPU。Templar II 正在进行中，并且正在训练一个 80 亿参数的模型，并计划很快启动一个更大的训练运行。Templar 目前专注于训练较小参数的模型，这是一个经过慎重考虑的选择，旨在确保去中心化训练架构升级（如上所述）在扩展到更大的模型尺寸之前有效。从优化策略和调度到研究迭代和激励结构，在较小的 80 亿参数模型上验证这些想法使团队能够快速且更具成本效益地进行迭代。随着最近的进展和训练架构的正式发布，9 月，该团队[启动](https://x.com/tplr_ai/status/1962621507114532889)了 Templar III，这是一个 700 亿参数的模型，也是迄今为止去中心化领域中最大的预训练运行。

##### TAO 和激励机制

Templar 的一个关键区别特征是其与 TAO 相关的激励模型。奖励是根据对模型训练的技能加权贡献来分配的。大多数协议（例如，Pluralis、Nous、Prime Intellect）都构建了许可运行或原型，而 Templar 在 Bittensor 的实时网络上完全运行。这使得 Templar 成为唯一一个已经将其实时、无需许可的经济层集成到其去中心化训练框架中的协议。这种实时、生产中的部署使 Templar 能够在实时训练运行场景中迭代其基础设施。

每个 Bittensor 子网都使用自己的“alpha”代币运行，该代币充当奖励机制和子网感知价值的市场信号。Templar 的 alpha 代币称为 gamma。Alpha 代币不能在外部市场上自由交易；它们只能通过其子网的专用流动性池使用自动做市商 (AMM) 兑换为 TAO。用户可以质押 TAO 以获得 gamma，或者将 gamma 赎回为 TAO，但不能直接将 gamma 兑换为另一个子网的 alpha 代币。Bittensor 的动态 TAO (dTAO) 系统使用 alpha 代币的市场价格来确定跨子网的排放分配。当 gamma 的价格相对于其他 alpha 代币上涨时，它表示市场对 Templar 的去中心化训练能力的信心增强，从而导致子网的 TAO 排放量更高。截至 9 月初，Templar 获得了每日排放量的约 4%，使其在 TAO 网络的 128 个子网中排名前六。

子网排放的工作原理更具体如下。在每个 12 秒的区块中，Bittensor 链会根据其 alpha 代币相对于其他子网的价格，按比例将 TAO 和 alpha 代币排放到子网的流动性池中。每个区块最多排放一个完整的 alpha 代币（初始排放率，有减半限制）到子网，然后用于激励子网贡献者，其中 41% 分配给矿工，41% 分配给验证者（及其质押者），18% 分配给子网所有者。

这种激励结构通过将经济奖励与参与者提供的价值联系起来，从而推动了对 Bittensor 网络的贡献。矿工有动力交付高质量的 AI 输出，例如模型训练或推理任务，以便从验证者那里获得更高的分数，从而获得更大的排放份额。验证者（及其质押者）会因准确评估和维护网络完整性而获得奖励。

由质押活动决定的 alpha 代币的市场估值确保了显示出更大效用的子网会吸引更多的 TAO 流入和排放，从而创造了一个竞争环境，鼓励创新、专业化和可持续发展。子网所有者会收到一部分专门的奖励，因此有动力设计有效的机制并吸引贡献者，最终培养一个无需许可的去中心化 AI 生态系统，让全球参与推动集体智能的发展。

该机制也引入了新的激励挑战，例如保持验证者的诚实、抵御女巫攻击以及减轻勾结。Bittensor 子网经常受到验证者或矿工试图玩弄系统与子网创建者试图阻止他们的猫捉老鼠游戏的影响。从长远来看，这些斗争应该使该系统成为最能抵抗游戏的系统之一，因为子网所有者学会了如何胜过不良行为者。

#### Gensyn

Gensyn 于 2022 年 2 月发布了其第一份简报，其中概述了去中心化训练的框架（Gensyn 是我们在最初的[了解加密货币和 AI 的交叉点](https://www.galaxy.com/insights/research/understanding-intersection-crypto-ai)文章中涵盖的唯一去中心化训练协议去年）。当时，该协议主要侧重于与 AI 相关的工作负载的验证，使用户能够向网络提交训练请求，由计算提供商满足这些请求，并确保这些请求按承诺执行。

最初的愿景还强调了识别加速应用机器学习 (ML) 研究的方法的需求。2023 年，Gensyn 在此愿景的基础上，阐明了对全球范围内可服务于特定 AI 应用的机器学习计算的更广泛需求。它引入了 GHOSTLY 原则作为此类协议必须满足的框架：通用性、异构性、开销、可扩展性、无需信任和延迟。Gensyn 一直专注于构建计算基础设施，这标志着他们正式扩展到涵盖计算之外的其他关键资源。

Gensyn 的核心是将训练技术栈分为四个不同的组件——执行、验证、通信和协调。执行处理世界上任何有能力执行机器学习操作的设备上的机器学习操作。通信和协调使设备能够以标准化方式相互发送信息。验证确保一切都可以在不需要信任的情况下进行计算。

##### 执行 – RL Swarm

Gensyn 在此技术栈中的第一个实现是一个名为 RL Swarm 的训练系统，它是用于训练后强化学习的去中心化协调机制。

RL Swarm 旨在允许多个计算提供商在无需许可、信任最小化的环境中为单个模型的训练做出贡献。该协议围绕一个三步循环构建：回答、评论和解决。首先，每个参与者生成一个模型输出，以响应提示（回答）。然后，其他参与者使用共享的奖励函数评估该输出并提交反馈（评论）。最后，这些评论用于选择最佳响应，这些响应被合并到下一个版本的模型中（解决）。整个过程以点对点的方式发生，无需依赖中央服务器或受信任的权威机构。

![RL Swarm 训练循环。来源：Gensyn](https://img.learnblockchain.cn/2025/09/16/53761668_image.png)

**RL Swarm 训练循环。来源：Gensyn**

RL Swarm 建立在强化学习在模型后训练中日益重要的基础上。随着模型在预训练中达到规模上限，RL 提供了一种无需在海量数据集上重新训练即可提高推理、指令遵循和事实性的机制。Gensyn 的系统通过将 RL 循环分解为不同的角色来实现去中心化环境中的改进，每个角色都可以独立验证。至关重要的是，它引入了容错、异步执行，这意味着贡献者并不总是需要在线或完全同步才能参与。

它本质上也是模块化的。该系统不需要使用特定的模型架构、数据类型或奖励结构，从而允许开发人员为他们的特定用例自定义训练循环。无论是训练编码模型、推理代理还是具有特定指令集的模型，RL Swarm 都为以可靠的方式大规模运行去中心化 RL 工作流程提供了支架。

##### 验证 - Verde

到目前为止，在本报告中讨论最少的去中心化训练方面之一是验证。Gensyn 的 GPU 市场的信任层 Verde 登场。通过 [Verde](https://arxiv.org/pdf/2502.19405)，Gensyn 引入了一种新的验证机制，因此该协议的用户可以相信另一端的人正在做他们所说的事情。

每个训练或推理任务都分配给由应用程序确定的一定数量的独立提供商。如果他们的输出完全匹配，则接受该作业。如果它们不同，则裁判协议会找到两个轨迹不同的第一步，并仅重新计算该单个操作。其数字与裁判匹配的一方保留其付款，而另一方则没收其权益。

使这成为可行的是 RepOps，这是一个“可重现的运算符”库，它迫使常见的[神经网络](https://news.mit.edu/2017/explained-neural-networks-deep-learning-0414)数学（矩阵乘法、激活等）以固定的、确定性的顺序在任何 GPU 上运行。确定性方面在这里最关键；否则，验证者可能会产生不同的结果，即使两者都是正确的。因此，诚实的提供商会产生逐位相等的结果，使 Verde 能够将匹配视为正确性的证明。由于裁判仅重放一个微步，因此增加的成本仅为几个百分点，而不是这些过程中通常使用的完整加密证明的 10,000 倍开销。

![Verde 验证协议架构。来源：Gensyn ](https://img.learnblockchain.cn/2025/09/16/81697850_image.png)

##### Verde 验证协议架构。（[来源：Gensyn](https://www.gensyn.ai/articles/verde)）

8 月，Gensyn [发布](https://x.com/gensynai/status/1960722406328426893)了 Judge，这是一个可验证的 AI 评估系统，具有两个核心组件：Verde 和一个可重现的[运行时](https://en.wikipedia.org/wiki/Runtime_system)，可保证跨硬件的按位相等结果。为了展示它，Gensyn 引入了一个“渐进式揭示游戏”，其中 AI 模型在信息被揭示时押注复杂问题的答案，Judge 确定性地验证结果并奖励准确的早期预测。

Judge 意义重大，因为它解决了 AI/ML 中的信任和可扩展性问题。它实现了可靠的模型比较，促进了高风险环境中的透明度，并通过允许独立验证来降低偏差或操纵的风险。除了推理任务外，Judge 还可以支持其他用例，例如去中心化争议解决和预测市场，这与 Gensyn 构建可信赖的分布式 AI 计算的基础设施的使命相一致。最终，像 Judge 这样的工具可以加强可重现性和问责制，这对于 AI 在社会中变得越来越重要至关重要。

##### 通信和协调：Skip-Pipe 和 Diverse Expert Ensembles

Skip-Pipe 是 Gensyn 解决当单个巨大模型被切片到多台机器上时出现的带宽瓶颈的解决方案。如前所述，传统的流水线训练迫使每个微批次按顺序遍历所有层，因此任何慢速节点都会使流水线停滞。Skip-Pipe 的调度程序动态跳过或重新排序可能导致延迟的层，从而将迭代时间缩短高达 55%，即使一半节点出现故障也能保持可用。通过减少节点间流量并允许根据需要删除层，它可以让训练师在一个由地理位置分散、低带宽 GPU 组成的拼凑网络上扩展非常大的模型。

Diverse Expert Ensembles 解决了不同的协调挑战：如何在没有持续串扰的情况下构建强大的“专家混合”系统。Gensyn 的 Heterogeneous Domain Expert Ensemble (HDEE) 完全独立地训练每个专家模型，并且仅在最后合并它们。与直觉相反的是，由此产生的集成在 21 个测试领域中的 20 个领域中击败了统一基线，且总体计算预算相同。由于在训练期间机器之间没有梯度或激活流动，因此任何空闲的 GPU 都可以做出贡献。

Skip-Pipe 和 HDEE 共同为 Gensyn 提供了一个通信高效的剧本。该协议可以在必要时在单个模型中进行分片，或者在独立性更便宜时并行训练许多小型专家，并且无需传统的完美、低延迟网络。

##### 测试网

3 月，Gensyn 将其测试网部署在自定义的以太坊 rollup 上。该团队计划逐步推出对测试网的更新。目前，用户可以参与 Gensyn 的三个产品、RL Swarm、BlockAssist 和 Judge。如上所述，RL Swarm 使 用 户 可以 为 RL 后 训 练 过 程做 出 贡 献。 8 月 ，该 团队[启动了 BlockAssist](https://x.com/gensynai/status/1953105108939751475)，“第一个大规模演示辅助学习，这是一种直接从人类行为训练代理的方法，无需手动标记或 RLHF。” 用户 可以下载 Minecraft 并与 BlockAssist 一起玩游戏以训练 Minecraft 模型。

![Gensys 训练运行](https://img.learnblockchain.cn/2025/09/16/49055251_image.jpg)

#### 其他值得关注的项目

以上部分概述了为实现去中心化训练而实施的突出架构。但是，新项目会定期加入进来。以下是去中心化训练领域的一些新项目：

Fortytwo：Fortytwo 建立在 Monad 区块链上，专门从事群体推理，其中多个小型语言模型 (SLM) 在节点网络中协作以处理查询并生成同行评审的输出，从而提高准确性和效率。该系统利用消费者级硬件，例如闲置的笔记本电脑，从而无需中心化 AI 中常见的高成本 GPU 集群。该架构包括推理的去中心化执行和训练的各个方面，例如专业模型的合成数据集生成。该项目在 Monad devnet 上运行。

Ambient：Ambient 是一个即将推出的“有用的工作证明”Layer-1 区块链，旨在为链上始终在线的自主 AI 代理提供动力，在没有中心化监督的情况下，在无需许可的生态系统中实现持续的任务执行、学习和演进。它将具有一个由网络矿工协作训练和改进的单个开源模型，贡献者将因对训练、构建和利用 AI 模型做出贡献而获得奖励。虽然 Ambient 强调去中心化推理，特别是对于代理而言，但网络上的矿工也将负责不断更新为网络提供动力的基础模型。Ambient 使用一种新颖的 logits 证明机制（一个系统，其中验证者可以通过检查其原始输出值（称为 logits）来验证矿工是否正确运行了模型计算）。该项目正在使用 Solana 的一个分支构建，尚未启动。

Flower Labs：Flower Labs 正在开发 Flower，这是一个用于联邦学习的开源框架，使跨去中心化数据源的协作 AI 模型训练成为可能，而无需共享原始数据，从而在聚合模型更新的同时保护隐私。Flower 的成立旨在解决数据中心化问题，它允许机构和个人在本地数据（例如医疗保健或金融领域）上训练模型，同时通过安全参数共享为全球改进做出贡献。与强调代币奖励和可验证计算的加密原生协议不同，Flower 优先考虑实际应用的隐私保护协作，使其成为受监管行业的理想选择，而无需区块链。

Macrocosmos：Macrocosmos 在 Bittensor 网络上运行，并正在开发一个完整的 AI 模型创建管道，跨越五个子网，专注于预训练、微调、数据收集和去中心化科学。它引入了激励编排训练架构 (IOTA) 框架，用于在异构、不可靠和无需许可的硬件上预训练大型语言模型，并启动了 1B+ 参数训练运行，并计划很快扩展到更大的参数模型。

Flock.io：Flock 是一个去中心化 AI 训练生态系统，将联邦学习与区块链基础设施集成，以在模块化、代币激励的网络中实现隐私保护的协作模型开发。参与者可以贡献模型、数据或计算资源，并获得与其贡献成比例的链上奖励。为了保护数据隐私，该协议使用联邦学习。这使参与者能够使用未与任何人共享的本地数据来训练全局模型。虽然该设置需要额外的验证步骤，以将无关数据（通常称为数据中毒）排除在模型训练之外，但这已成为医疗保健应用等用例的有效宣传，在这种情况下，多家医疗保健提供商可以训练全局模型，而无需泄露高度敏感的医疗数据。

### 前景和风险

在过去的两年中，去中心化训练已经从一个有趣的概念转变为在野外运行的功能网络。虽然这些项目距离预期的最终状态还很远，但在使去中心化训练成为现实方面正在取得有意义的进展。回顾现有的去中心化训练格局，几个趋势开始出现：

实时概念验证不再是假设。在过去的一年中，Nous 的 Consilience 和 Prime Intellect 的 INTELLECT-2 等早期验证已进入生产规模的运行。OpenDiLoCo 和协议模型等突破正在分布式网络上实现高性能 AI，从而促进具有成本效益、弹性和透明度的模型开发。这些网络正在协调数十个（有时是数百个）GPU 来实时预训练和微调中型模型，从而证明去中心化训练可以超越封闭演示和临时黑客马拉松。虽然这些仍然不是无需许可的网络，但 Templar 在这里脱颖而出；它的成功加强了这样一种观点，即去中心化训练正在从简单地证明底层技术有效发展到扩展以匹配中心化模型的性能，并吸引生产大规模基础模型所需的 GPU 资源。

模型尺寸正在攀升，但仍然存在差距。从 2024 年到 2025 年，去中心化项目从个位数十亿参数的模型跃升至 300 亿至 400 亿参数的模型。然而，由于其垂直整合的数据中心和最先进的硬件，领先的 AI 实验室已经发布了数万亿参数的系统，并继续快速创新。由于去中心化训练能够利用来自世界各地的训练硬件，因此它可以弥合这一差距，尤其是在中心化训练方法由于需要越来越多的超大规模数据中心而面临日益增长的限制时。但是，缩小这一差距将取决于在通信高效的优化器和梯度压缩方面的进一步突破，以实现全球规模，以及无法被利用的激励和验证层。

训练后工作流程是一个越来越受关注的领域。**受监督的微调、RLHF 和特定领域的强化学习对同步带宽的需求远低于完整规模的预训练。像 PRIME-RL 和 RL Swarm 这样的框架已经在不稳定的消费级节点上工作，让贡献者可以在项目快速商业化定制模型的同时将剩余周期货币化。鉴于 RL 非常适合去中心化训练，因此它很可能会变得越来越重要，成为去中心化训练项目的关注领域。这使得去中心化训练有可能首先在 RL 训练中找到大规模的产品市场契合点，越来越多的团队推出特定于 RL 的训练框架就证明了这一点。
激励和验证滞后于技术创新。激励和验证仍然滞后于技术创新。只有少数网络，最值得注意的是 Templar，提供实时代币奖励和链上罚没，这些措施可以有效阻止不当行为，并且已经在真实环境中经过测试。虽然其他项目正在试验声誉评分、见证人证明或培训证明计划，但这些系统仍未经证实。即使克服了技术障碍，治理也将构成同样严峻的挑战，因为去中心化网络必须找到制定规则、执行规则和解决争端的方法，而不会重蹈加密 DAO 中出现的效率低下的覆辙。解决技术难题只是第一步；长期可行性取决于将其与可信的验证、有效的治理以及引人注目的货币化/所有权结构相结合，这些结构可以确保对所做工作的信任，并吸引扩展所需的才能和资源。

堆栈正在聚合成端到端的pipeline。现在，大多数领先的团队都结合了带宽感知优化器（DeMo、DisTrO）、去中心化计算交易所（Prime Compute、Basilica）和链上协调层（Psyche、PM、PRIME）。结果是一个模块化的、开放的pipeline，它反映了中心化实验室从数据到部署的工作流程，只是没有单一的控制点。如果项目没有直接整合自己的解决方案，或者即使他们这样做了，他们也可以插入到其他专门从事去中心化训练垂直领域的加密项目中，例如数据提供协议、GPU 和推理市场以及去中心化存储backbone。这种周围的基础设施为去中心化训练项目提供了即插即用的组件，可以进一步利用这些组件来增强其产品，并更好地与中心化同行竞争。

#### 风险

硬件和软件优化是一个不断变化的目标——中心化实验室不断扩展该领域。英伟达的 Blackwell B200 芯片在 [MLPerf](https://www.nvidia.com/en-us/data-center/resources/mlperf-benchmarks/) 基准测试中，4050 亿参数预训练和 700 亿 [LoRA](https://www.cloudflare.com/learning/ai/what-is-lora/) 微调的训练吞吐量比上一代快 2.2-2.6 倍，[缩短](https://entelechyasia.com/2025/06/05/nvidia-blackwell-shatters-mlperf-training-records/?utm_source=chatgpt.com) 了最大玩家的时间和能源成本。在软件方面，PyTorch 3.0 和 TensorFlow 4.0 引入了编译器级别的图融合和动态形状内核，从而从相同的芯片中榨取了更多的性能。随着硬件和软件优化的改进，或者发现新的训练架构，去中心化训练网络将不得不跟上步伐，不断更新其堆栈以适应最快和最先进的训练方法，以吸引人才并激励有意义的模型开发。这将要求团队开发软件，以确保持续的高性能，无论底层硬件如何，以及使这些网络能够适应底层训练架构变化的软件堆栈。

行业巨头已经开源了模型，模糊了去中心化和中心化训练之间的界限。中心化的人工智能实验室主要将其模型保持关闭，从而加强了去中心化训练作为保证开放性、透明性和社区治理的一种方式。虽然最近 DeepSeek、GPT 开源变体和 Llama 等版本的发布表明了向更大开放性的转变，但不清楚在竞争加剧、监管和安全问题日益严重的情况下，这种趋势是否会持续下去。即使发布了权重，它们仍然反映了原始实验室的价值观和选择——使得独立训练的能力对于适应性、与不同优先事项保持一致以及确保访问不受少数行业巨头瓶颈至关重要。

人才获取仍然是一项斗争。许多团队告诉我们这一点。虽然加入去中心化训练工作的人才质量有所提高，但他们缺乏领先人工智能实验室的庞大资源（例如，OpenAI 最近为每位员工提供的数百万美元的“特别奖励”或 Meta 提出的 2.5 亿美元挖走一名研究人员的提议）。目前，去中心化项目吸引了重视开放性和独立性的使命驱动型研究人员，同时也吸引了更广泛的全球人才库和充满活力的开源社区。然而，为了大规模竞争，他们必须通过训练与行业巨头相媲美的模型，并通过改进激励和货币化机制来证明自己，从而为贡献者创造有意义的收益。虽然无需许可的网络和加密经济激励提供了独特的价值，但未能获得分配和建立可持续的收入来源可能会阻碍该领域的长期增长。

监管逆风是真实存在的，尤其是对于未经审查的模型。去中心化训练面临着独特的监管挑战：根据设计，任何人都可以训练任何类型的模型。虽然这种开放性是一种优势，但它也引发了安全问题，尤其是在生物安全、虚假信息或其他敏感领域等方面的滥用。欧盟和美国的政策制定者已经表示要加强审查：欧盟人工智能法案对高风险的基础模型引入了额外的义务，而美国机构正在权衡对开放系统和潜在出口式控制的限制。涉及用于有害目的的去中心化模型的单一事件可能会促使全面监管，从而威胁到无需许可的训练的前提。

分发和货币化：分发仍然是一个主要挑战。包括 OpenAI、Anthropic 和 Google 在内的领先实验室通过品牌认知度、企业合同、集成到云平台以及直接的消费者覆盖范围，拥有巨大的分发优势。相比之下，去中心化训练项目缺乏这些内置渠道，必须更加努力地使模型被采用、信任和嵌入到实际工作流程中。鉴于加密货币在加密货币到加密货币的应用程序之外的集成仍然处于起步阶段（尽管这种情况正在迅速变化），这可能会更具挑战性。一个非常重要且尚未解决的问题是，谁将真正使用这些去中心化训练模型。高质量的开源模型已经存在，一旦发布了新的最先进的模型，其他人就可以很容易地对其进行提炼或调整。随着时间的推移，去中心化训练项目的开源性质应该会产生网络效应，从而解决分发问题。然而，即使他们能够解决分发问题，团队也将面临将其产品货币化的挑战。目前，Pluralis 的 PM 似乎最直接地处理了这些货币化挑战。这不仅仅是一个加密货币 x 人工智能问题，而是一个更广泛的加密货币问题，突显了未来的挑战。

### 结论

去中心化训练已迅速从一个抽象的概念演变为协调全球实际训练运行的功能网络。在过去的一年中，Nous、Prime Intellect、Pluralis、Templar 和 Gensyn 等项目表明，可以将去中心化的 GPU 缝合在一起，有效地压缩通信，甚至开始在真实环境中试验激励机制。这些早期的演示证明，去中心化训练可以超越理论，尽管在规模上与中心化实验室竞争的道路仍然陡峭。

即使去中心化项目最终训练出的基础模型能够与当今领先的人工智能实验室匹敌，它们面临的最艰难的考验仍然在前方：证明超出哲学吸引力的现实优势。这些优势可能会内生出现，通过性能优异的架构或通过奖励贡献者的新型所有权和货币化方案。或者，如果中心化的行业巨头试图通过保持权重关闭或注入不受欢迎的对齐偏差来扼杀创新，它们可能会外生出现。

除了技术进步之外，对该领域的态度也开始转变。一位创始人这样描述了过去一年在主要人工智能会议上情绪的变化：一年前，几乎没有人对去中心化训练感兴趣，尤其是与加密货币搭配使用时；六个月前，与会者开始承认潜在的问题，但怀疑大规模的可行性；最近几个月，人们越来越认识到，持续的进步可能会使可扩展的去中心化训练成为可能。这种认知的演变表明，不仅在技术上，而且在合法性方面，势头正在增强。

风险是真实存在的：行业巨头保持着硬件、人才和分发优势；监管审查迫在眉睫；激励和治理机制在规模上仍未经测试。然而，好处同样引人注目。去中心化训练不仅代表了一种替代的技术架构，而且代表了一种从根本上不同的构建人工智能的理念：无需许可、全球所有，并与不同的社区保持一致，而不是少数公司。如果即使只有一个项目能够表明开放性可以转化为更快的迭代、新颖的架构或更具包容性的治理，那么它将标志着加密货币和人工智能的突破性时刻。未来的道路将是漫长的，但成功的核心要素现在已经稳固地摆在桌面上。

>- 原文链接： [galaxy.com/insights/rese...](https://www.galaxy.com/insights/research/decentralized-ai-training)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

去中心化 AI 训练：架构、机遇和挑战

去中心化训练已经从理论走向现实。包括 Nous Research、Prime Intellect、Pluralis、Templar 和 Gensyn 等项目正在全球范围内进行真实的训练。

介绍

去年，Galaxy Research 发表了其首篇关于加密货币和 AI 的交叉领域的文章。它探讨了加密货币的无需信任和无需许可的基础设施如何作为 AI 创新的基础。其中包括：响应图形处理单元 (GPU) 短缺而出现的处理能力（或 compute）的去中心化市场；用于可验证的链上推理的零知识机器学习 (zkML) 的早期前景；以及自主 AI 代理简化复杂交互并使用加密货币作为原生交换媒介的潜力。

第一篇文章侧重于去中心化训练，重点介绍了致力于在全球范围内实现基础模型的无需许可训练的项目。他们的动机是双重的。实际上，他们认识到世界各地大量未使用的 GPU 可以用于模型训练，从而为世界各地的 AI 工程师开启了一个原本负担不起的过程，并使开源 AI 开发成为现实。从哲学上讲，这些团队的动力来自于领先的中心化 AI 实验室对我们这个时代最重要的技术革命之一的严格控制，以及创建开放替代方案的迫切需要。

本报告探讨了去中心化 AI 协议的底层架构、它们旨在解决的技术问题以及去中心化训练的前景。加密货币和 AI 的基本前提与一年前相比没有改变。加密货币为 AI 提供了一个无需许可、无需信任和可组合的结算层，用于转移价值。现在的挑战是证明去中心化方法可以提供优于中心化方法的实际优势。

模型训练基础知识

在深入研究去中心化训练的最新进展之前，重要的是要基本了解 LLM 及其底层架构。这将帮助读者了解这些项目的工作原理，以及他们试图解决的主要问题。

Transformers

大型语言模型 (LLM)，如 ChatGPT，由一种称为 transformer 的架构驱动。 Transformer 在 2017 年 Google 发表的一篇题为“Attention Is All You Need”的论文中被提出，是 AI 开发领域最重要的创新之一。简而言之，transformer 摄取数据（称为 tokens）并应用各种机制来学习这些 token 如何相互关联。

token 之间的关系使用 weights 进行建模。 Weights 可以被认为是构成模型的数百万到数万亿个旋钮，并且不断被拨动，直到它能够始终如一地预测序列中的下一个 token。一旦训练完成，模型就可以基本上捕获人类语言背后的模式和含义。

Transformer 训练的关键组成部分包括：

前向传递 (Forward Pass)： 在训练过程的第一步中，transformer 被馈送来自较大数据集的一批 token。基于这些输入，模型然后尝试预测下一个 token 应该是什么。在训练运行开始时，模型的权重是随机的。
损失计算 (Loss Computation)： 前向传递预测然后用于计算 loss score，该分数衡量这些预测与馈送到模型的原始数据批次中的实际 token 相差多远。换句话说，模型在前向传递期间产生的预测结果与用于训练它的较大数据集中的实际 token 相比如何？在训练期间，目标是减少这个损失分数，以使模型更准确。
反向传递 (Backward Pass)： 然后，损失分数用于计算每个权重的 gradient。这些 gradient 告诉模型如何调整其权重以在下一次前向传递之前减少损失。
优化器更新 (Optimizer Update)： optimizer 算法读取这些 gradient 并调整每个权重以减少损失。
重复 (Repeat)： 重复上述步骤，直到所有数据都被使用完毕并且模型开始达到 convergence - 换句话说，当进一步的优化不再显着减少损失或改善性能时。

训练（预训练和后训练）

完整的模型训练过程包括两个离散的步骤：pre-training 和 post-training。上述步骤是预训练过程的核心组成部分。完成后，它们会生成一个预训练的基础模型，通常称为 foundational model。

但是，模型通常需要在预训练后进行进一步的改进，称为 post-training。后训练用于以各种方式进一步改进基础模型，包括使其更准确或针对特定用例（例如翻译或医疗诊断）进行定制。

后训练是使 LLM 成为当今强大工具的关键步骤。后训练中使用几种不同的方法。其中两种最流行的是：

监督微调 (Supervised Fine-tuning, SFT)： SFT 在很大程度上类似于上述预训练过程。主要区别在于基础模型是在更精心策划的数据集或提示和答案上进行训练的，因此它学习遵循特定指令或专注于某个领域。
强化学习 (Reinforcement Learning, RL)： RL 不是通过向模型提供新数据来改进模型，而是通过奖励对模型的输出进行评分，并让模型更新其权重以最大化该奖励。最近，reasoning models（如下所述）已使用 RL 来改进其输出。随着近年来对预训练扩展问题的出现，在后训练中使用 RL 和 reasoning models 已成为一项重大进步，因为它无需额外的数据或大量计算即可有意义地提高模型的性能。

具体而言，RL 后训练非常适合解决去中心化训练中面临的障碍（如下讨论）。这是因为在 RL 中，大部分时间模型都在使用前向传递（模型进行预测但尚未更改自身）生成大量输出。这些前向传递不需要机器之间的协调或通信，并且可以异步完成。它们也是 parallelizable 的，这意味着它们可以分解为独立的子任务，这些子任务可以在多个 GPU 上同时执行。这是因为每个 rollout 都可以独立计算，因此训练运行可以通过简单地添加 compute 来扩大吞吐量。只有在挑选出最佳答案后，模型才会更新其内部权重，从而减少了机器需要同步的频率。

一旦模型经过训练，使用它来生成输出的过程称为 inference。与涉及调整数百万或数十亿个权重的训练不同，inference 会保持这些权重不变，并简单地将其应用于新的输入。对于 LLM 来说，inference 意味着获取一个提示，通过模型的层运行它，并逐步预测最有可能的下一个 token。因为 inference 不需要 backpropagation（基于模型的错误调整模型权重的过程）或权重更新，所以它比训练所需的计算量要少得多，但由于现代模型的庞大规模，它仍然是资源密集型的。

简而言之：Inference 为聊天机器人、代码助手和翻译工具等应用程序提供动力。这是模型将其“学到的知识”付诸实践的阶段。

训练开销

促进上述训练过程是资源密集型的，并且需要高度专业化的软件和硬件才能大规模进行。世界领先的 AI 实验室已经在以前所未有的水平上花费，从数亿美元到数十亿美元不等。 OpenAI 首席执行官 Sam Altman 表示，GPT-4 的训练成本超过 1 亿美元，而 Anthropic 的首席执行官 Dario Amodei 表示，训练运行已超过 10 亿美元，并且已经在进行中。

这些成本的主要份额来自 GPU。顶级的 GPU，例如 NVIDIA 的 H100 或 B200，每个单元的成本可能高达 30,000 美元以上，据报道，OpenAI 计划到 2025 年底部署超过 100 万个 GPU。但是，原始 GPU 能力是不够的。这些系统必须部署在配备超高速通信基础设施的高性能数据中心中。诸如 NVIDIA NVLink 之类的技术可以在服务器内的 GPU 之间实现快速数据交换，而 InfiniBand 连接服务器集群，使它们可以充当单个统一的 compute 结构。

带有 NVLink 的示例 DGX H100 架构（浅绿色矩形）在系统内部连接 GPU，而 InfiniBand 将服务器（绿色线）连接到统一的结构中。（来源。）

因此，大多数基础模型都是由中心化 AI 实验室开发的，例如 OpenAI、Anthropic、Meta、Google 和 xAI。只有这样的庞然大物才拥有训练所需的充足资源。虽然这导致了模型训练和性能方面的重大突破，但也导致了对领先基础模型开发的控制权仅集中在少数几个实体手中。证据表明，扩展规律可能正在发挥作用，从而限制了仅仅添加 compute 或数据以增强预训练模型的智能的有效性。

作为回应，在过去的几年中，一群 AI 工程师已经开始开发新的模型训练方法，试图解决这些技术复杂性并减少大量的资源需求。就本文而言，这种努力将被称为 decentralized training。

去中心化训练和分布式训练

比特币的成功已经证明，可以以去中心化的方式协调计算和资本，以保护大型经济网络。去中心化训练旨在利用加密货币的特性，包括无需许可、无需信任和激励机制，以构建去中心化网络，这些网络可以训练与中心化提供商相当的强大的基础模型。

在去中心化训练中，世界各地不同位置的节点在无需许可、激励的网络上工作，以促进 AI 模型的训练。这与 distributed training 形成对比，distributed training 指的是在不同地理位置训练的模型，但由已经获得许可的单个或多个实体（即，通过白名单过程）进行训练。但是，要使去中心化训练存在，分布式训练必须是可行的。许多中心化实验室认识到对其训练设置的严格限制，已经开始探索实现分布式训练的方法，该方法可以产生与其现有设置相当的结果。

有一些实际的障碍阻止了去中心化训练成为现实：

通信开销 (Communication Overhead)： 当节点在地理上分离时，它们无法访问上述通信基础设施。去中心化训练需要考虑标准互联网速度、大量数据的频繁传输以及训练过程中 GPU 的同步。
验证 (Verification)： 去中心化训练网络本质上是无需许可的，旨在让任何人贡献 compute。因此，它们必须开发验证机制，以防止贡献者试图通过不正确的或恶意的输入来破坏网络，或者通过在不贡献生产性工作的情况下玩弄系统来获得激励。
计算 (Compute)： 无论规模如何，去中心化网络还必须聚合足够的 compute 来训练模型。虽然在某些方面这发挥了去中心化网络的优势，因为这些网络旨在让任何拥有 GPU 的人都可以为训练过程做出贡献，但它也引入了复杂性，因为这些网络必须协调异构 compute 。
激励措施/资金/所有权和货币化 (Incentives/Funding/Ownership and Monetization)： 去中心化训练网络必须设计激励机制和所有权/货币化模型，以有效地确保网络的完整性，并奖励 compute 提供商、验证者和模型设计者所做的贡献。这与中心化实验室形成直接对比，在中心化实验室中，一家公司构建模型并将其货币化。

尽管存在这些限制，但许多项目仍在进行去中心化训练，因为他们认为基础模型的控制权不应掌握在少数公司手中。他们的目标是解决中心化训练带来的风险，例如由于依赖少数几个中心化产品而导致的单点故障；数据隐私和审查；可扩展性；以及 AI 对齐和偏差。更广泛地说，他们认为开源 AI 开发是必需品，而不是可有可无的东西。如果没有开放、可验证的基础设施，创新将会受到扼杀，访问权限将仅限于少数特权人士，并且社会将继承由狭隘的公司激励措施塑造的 AI 系统。在这种观点看来，去中心化训练不仅是关于构建有竞争力的模型，而且还关于创建一个具有弹性、透明和参与性的生态系统，该生态系统反映集体的利益而不是专有利益。

项目概览

下面，我们深入概述了为几个去中心化训练项目提供支持的底层机制。

Nous Research

背景

Nous Research 成立于 2022 年，是一家开源 AI 研究组织。该团队最初是一个非正式的开源 AI 研究人员和开发人员团体，致力于寻找解决开源 AI 代码局限性的解决方案。使命是“创建并开放最好的模型”。

早期，该团队将去中心化训练确定为主要障碍。具体而言，他们认识到，用于协调 GPU 之间通信的 GPU 和工具的访问权限主要是为适应大型中心化 AI 公司而开发的，几乎没有为资源有限的组织参与有意义的开发留下空间。例如，NVIDIA 的最新 Blackwell GPU（例如 B200）可以使用 NVLink Switch System 以高达每秒 1.8 TB 的速度相互通信。这与主要互联网基础设施的总带宽相当，并且只有在中心化、数据中心规模的部署中才有可能实现，这使得较小或分布式网络几乎不可能在不重新考虑通信策略的情况下与大型 AI 实验室的性能相媲美。

在解决去中心化训练之前，Nous 通常对 AI 领域做出了重大贡献。 2023 年 8 月，Nous 发布了“YaRN：大型语言模型的有效上下文窗口扩展”。本文解决了一个简单但重要的问题：大多数 AI 模型一次只能记住和处理固定数量的文本（它们的“上下文窗口”）。例如，如果给定的文档更长，则使用 2,000 个单词限制训练的模型会很快开始忘记或丢失信息。 YaRN 引入了一种在不从头开始重新训练模型的情况下，将此限制扩展得更远的方法。它调整了模型跟踪单词位置的方式（就像书中的书签一样），以便即使文本长达数万个单词，它仍然可以遵循信息的流动。该方法允许模型处理多达 128,000 个 token 的序列 - 大约相当于马克·吐温的“哈克贝利·费恩历险记”的长度 - 同时使用比旧方法少得多的计算能力和训练数据。简而言之，YaRN 使 AI 模型可以一次“阅读”和理解更长的文档、对话或数据集。这是扩展 AI 功能的重要一步，此后已被更广泛的研究社区采用，包括 OpenAI 和中国的 Deepseek。

DeMo 和 DisTrO

2024 年 3 月，Nous 发布了分布式训练方面的一项突破，名为解耦动量优化 (DeMo)。 DeMo 由 Nous 研究人员 Bowen Peng 和 Jeffrey Quesnelle 与 Diederik P. Kingma（OpenAI 的联合创始人兼 AdamW 优化器的发明者）合作开发。它是 Nous 去中心化训练堆栈中的一个主要构建块，通过减少 GPU 之间交换的数据量来减少分布式 data-parallel 模型训练设置中的通信开销。在 data-parallel 训练中，每个节点保留模型权重的完整副本，但数据集被分成由不同节点处理的块。

AdamW 是模型训练中最常用的优化器之一。 AdamW 的一个关键功能是平滑称为 momentum 的东西，它是模型权重过去变化的运行平均值。实际上，AdamW 有助于消除 data-parallel 训练过程中引入的噪声，以提高训练效率。 Nous Research 基于 AdamW 构建了 DeMo，创建了一种新的优化器，该优化器将 momentum 分为不同训练器中的本地部分和共享部分。这通过限制节点必须相互共享的数据量来减少节点之间所需的通信量。

DeMO 选择性地关注每个 GPU 每次迭代中变化最快的参数。逻辑很简单：正在发生巨大变化的参数对于学习至关重要，并且应该以更高的优先级在工作人员之间同步。同时，变化较慢的参数可以暂时滞后，而不会显着损害收敛。实际上，这会过滤掉嘈杂的更新，同时纳入最有意义的更新。 Nous 还采用了压缩技术，包括一种类似于 JPEG 缩小图像的方法，称为离散余弦变换 (DCT)，以进一步减少发送的数据量。通过仅同步最重要的更新，DeMO 将通信开销减少了 10 倍到 1,000 倍，具体取决于模型的大小。有关底层优化的完整技术概述，请参阅 Nous Research 的这篇博客文章。

2024 年 6 月，Nous 团队推出了他们的第二个主要创新，名为分布式训练优化器 (DisTro)。虽然 DeMo 提供了核心优化器创新，但 DisTrO 将其纳入了更广泛的优化器框架中，该框架进一步压缩了 GPU 之间共享的信息，并解决了 GPU 同步、容错和负载平衡等问题。 2024 年 12 月，Nous 通过利用 DisTro 在 LlaMA 风格的架构上训练了一个 150 亿参数的模型，证明了这种方法的可行性。

Psyche

今年 5 月，Nous 发布了 Psyche，这是一个用于协调去中心化训练的框架，该框架进一步创新了 DeMO 和 DisTrO 优化器架构。 Psyche 中值得注意的技术升级包括通过使 GPU 能够在开始下一步训练时发送模型更新来改进异步训练。这最大限度地减少了空闲时间，并使 GPU 利用率更接近于中心化、紧密集成的系统。 Psyche 还进一步改进了 DisTro 引入的压缩技术，将通信负载减少了额外的 3 倍。

可以使用完全链上（通过 Solana）或链下设置来实现 Psyche。它有三个主要参与者：coordinator、clients 和 data providers。 coordinator 保存着促进训练运行所需的所有信息，包括模型的最新状态、参与的 clients 以及数据和输出验证的分配。 clients 是在训练运行期间执行训练任务的实际 GPU 提供商。除了模型训练之外，他们还参与目击过程（如下所述）。 data providers（clients 可以自己托管）提供训练所需的数据。

Nous Psyche 训练架构

Psyche 将训练分为两个不同的时间间隔，epochs 和 steps。这为 clients 创建了自然的进入和退出点，使他们能够在不提交完整训练运行的情况下参与。这种结构有助于最大限度地减少 GPU 提供商的机会成本，这些提供商可能无法在运行的整个持续时间内投入其资源。

在 epoch 开始时，coordinator 定义关键参数：模型架构、要使用的数据集以及所需的 clients 数量。接下来是一个简短的预热阶段，clients 从公共来源或来自其他 clients 的点对点同步到最新的模型检查点。一旦训练开始，每个 client 都会被分配一部分数据并在本地执行训练步骤。在计算更新后，client 会将其结果广播到网络的其余部分，以及加密承诺（证明工作已正确完成的 SHA-256 哈希）。

clients 的一个子集被随机选择在每一轮中充当 witnesses，并充当 Psyche 的主要验证机制。这些 witnesses 像往常一样进行训练，但也会验证收到了哪些 client 更新以及哪些是有效的。他们向 coordinator 提交 Bloom filters，这是一种轻量级数据结构，可以有效地总结这种参与情况。虽然 Nous 本身承认这种方法是不完善的，因为它可能会产生误报，但研究人员愿意接受这种权衡以提高效率。一旦给定更新达到法定数量的 witness 确认，coordinator 会将更新应用于全局模型，并允许所有 clients 在继续下一轮之前同步其模型。

至关重要的是，Psyche 旨在允许训练和验证重叠。一旦 client 提交其更新，它就可以立即开始训练下一批，而不必等待 coordinator 或其他 clients 完成其上一轮。这种重叠设计以及 DisTrO 的压缩确保通信开销保持在最低限度，并且 GPU 不会处于空闲状态。

训练过程中 Client 交互工作流程

2025 年 5 月，Nous Research 发起了迄今为止最大的训练运行：一致性，这是一个 400 亿参数的 transformer，正在通过 Psyche 的去中心化训练网络在约 20 万亿个 token 上进行预训练。训练仍在进行中。到目前为止，运行基本上是平稳的，但出现了一些损失峰值，表明优化轨迹短暂地偏离了收敛。作为回应，该团队回滚到最后一个健康的检查点，并使用 OLMo 的 Skip-Step 保护措施包装了优化器，该保护措施会自动跳过任何损失或梯度范数与平均值相差几个标准差的更新，从而降低了未来损失峰值的风险。

Solana 的作用

虽然 Psyche 可以在链下环境中运行，但它旨在在 Solana 区块链上使用。 Solana 充当训练网络的信任和问责层，记录链上的 client 承诺、witness 证明和训练元数据。这为每一轮训练创建了一个不可变的审计跟踪，从而可以透明地验证谁做出了贡献、完成了哪些工作以及是否通过了验证。

Nous 还计划使用 Solana 来促进训练奖励分配。虽然该项目尚未发布正式的 token 经济学，但 Psyche 文档概述了一个系统，该系统将跟踪 client compute 贡献并根据经过验证的工作分配积分。然后，可以使用财务主管智能合约将这些积分兑换为 token，该合约充当链上托管。完成有效训练步骤的 clients 可以根据他们的贡献直接从此合约中领取奖励。 Psyche 尚未在训练运行中使用奖励机制，但该系统预计将在 Nous 加密 token 正式启动后在分配中发挥核心作用。

Hermes 模型系列

最近，在 2025 年 8 月，Nous 推出了 Hermes-4，这是迄今为止最先进的模型系列。 Hermes-4 专注于使模型在逐步推理方面变得更好，同时在通用指令跟随方面仍然表现出色。它在数学、编码、理解和常识测试中显示出强大的结果。为了实现 Nous 的开源使命，该团队公开发布了所有 Hermes-4 模型权重，供任何人使用和构建。此外，Nous 还发布了一个名为 Nous Chat 的模型的可访问界面，在发布后的第一周免费提供访问。

Hermes 模型的发布不仅巩固了 Nous 作为模型构建组织的信誉，而且也为更广泛的研究议程提供了实践验证。每次 Hermes 发布都提供了证据，表明可以在开放环境中实现最先进的功能，为团队的去中心化训练突破（DeMo、DisTrO 和 Psyche）奠定了基础，并最终实现了雄心勃勃的 Consilience 40B 运行。

Atropos

如上所述，由于推理模型的进步和预训练的扩展限制，RL 在后训练中发挥着越来越重要的作用。 Atropos 是 Nous 在去中心化环境中解决 RL 的方案。这是一个用于 LLM 的即插即用模块化 RL 框架，可以适应不同的 inference 后端、训练方法、数据集和 RL 环境。

当使用大量 GPU 以去中心化的方式进行 RL 后训练时，模型在训练过程中生成的提示输出将具有不同的完成时间。 Atropos 充当 rollout handler，即用于协调跨设备的任务生成和完成的中央编排器，从而实现异步 RL 训练。

Atropos 的初始版本于 4 月发布，但目前仅包含一个用于协调 RL 任务的环境框架。 Nous 计划在未来几个月内发布补充的训练和 inference 框架。

Prime Intellect

背景

Prime Intellect 成立于 2024 年，是一家致力于构建大规模去中心化 AI 开发基础设施的公司。该团队由 Vincent Weisser 和 Johannes Hagemann 共同创立，最初专注于聚合来自中心化和去中心化提供商的计算资源，以支持高级 AI 模型的协作式分布式训练。其使命是 democratize AI 开发，使全球的研究人员和开发人员能够访问可扩展的 compute 并集体拥有开放的 AI 创新。

OpenDiLoCo、Intellect-1 和 PRIME

2024 年 7 月，Prime Intellect 发布了 OpenDiLoCo，这是由 Google 的 DeepMind 为数据并行训练开发的低通信模型训练方法 DiLoCo 的开源版本。 Google 根据 the view 开发了该模型，即“在现代规模下，通过标准反向传播进行训练带来了前所未有的工程和基础设施挑战……很难并置和紧密同步大量的加速器。” 虽然此声明侧重于大规模训练的实用性，而不是开源开发的精神，但它默认承认了长期中心化训练的局限性以及对分布式替代方案的需求。

DiLoCo 降低了 GPU 训练模型之间共享信息的频率和数量。在中心化设置中，GPU 在每次训练步骤后都会相互共享所有更新的梯度。在 DiLoCo 中，更新的梯度共享频率较低，以减少通信开销。这创建了一个双重优化架构，其中单个 GPU（或 GPU 集群）运行 inner optimization，该 inner optimization 在每个步骤后更新其自身模型上的权重，以及 outer optimization，其中 inner optimization 在 GPU 之间共享，然后所有 GPU 使用所做更改的聚合进行更新。

在其初始版本中，OpenDiLoCo 展示了 90% 到 95% 的 GPU 利用率，这意味着尽管机器分布在两个大陆和三个国家/地区，但几乎没有机器处于空闲状态。 OpenDiLoCo 能够重现可比的训练结果和性能，它依赖的通信量减少了 500 倍（如下面的紫色线条赶上蓝色线条所证明），相比于中心化对应物。有关训练过程的可视化表示，请观看由 Prime Intellect 团队发布的演示 OpenDiLoCo 实际应用情况的视频。

纵轴表示困惑度，这是一种衡量模型预测序列中下一个 token 的能力。较低的困惑度意味着模型对其预测更有信心和准确。来源：Prime Intellect .

2024 年 10 月，Prime Intellect 开始训练 INTELLECT-1，这是第一个以分布式方式训练的 100 亿参数语言模型。训练耗时 42 天，之后该模型开源。它在三个大陆和五个国家/地区进行。训练运行证明了分布式训练的逐步改进，所有 compute 的利用率为 83%，仅在美国境内节点之间通信的利用率为 96%。该项目的 GPU 来源于 Web2 和 Web3 提供商，包括 Akash、Hyperbolic 和 Olas 等加密 GPU 市场。

INTELLECT-1 使用了 Prime Intellect 的新训练框架 PRIME，该框架允许 Prime Intellect 训练系统在 compute 意外地进入和离开正在进行的训练运行时进行调整。它引入了诸如 ElasticDeviceMesh 等创新，使贡献者可以即时加入或退出。

训练步骤中的活动训练节点，展示了训练架构处理动态节点参与的能力。 来源：Prime Intellect

协议

用于 GPU 为训练运行做出贡献的 compute 交换。
PRIME 训练框架，可减少通信开销并提高容错能力。
一个名为 GENESYS 的开源库，用于合成数据生成和验证，这在 RL 微调中非常有用。
一个名为 TOPLOC 的轻量级验证系统，用于验证来自参与节点的模型执行情况和输出。

Protocol 发挥着与 Nous 的 Psyche 类似的作用，并且有四个主要参与者：

Workers：使人们能够为其训练或其他 Prime Intellect AI 相关产品贡献他们的 compute 资源的软件。
Validators：验证 compute 和工作的贡献，以防止恶意行为。 Prime Intellect 正在努力将最先进的 inference 验证算法 TOPLOC 适应于去中心化训练。
Orchestrator：计算池创建者管理工作者的一种方式。这履行了与 Nous 的 orchestrator 类似的角色。- 智能合约：跟踪谁提供了计算，削减不良行为者的权益，并自主支付奖励。目前在以太坊 L2 Base 的 Sepolia 测试网上运行，但 Prime Intellect 已经声明其最终将过渡到自己的链上。

协议训练，一步一步。来源：Prime Intellect

协议旨在最终让贡献者拥有模型的一部分权益，或因其工作获得奖励；同时为开源 AI 项目提供通过智能合约和集体激励来资助和管理开发的新方式。

INTELLECT 2 和强化学习

该团队引入了两个关键的基础设施组件，以使这种去中心化 RL 训练成为可能：

PRIME-RL，一个完全异步的强化学习框架，将过程分为三个独立的阶段：生成候选答案；基于选定的答案进行训练；以及广播更新后的模型权重。这种解耦允许系统在不可靠、缓慢或地理上分散的网络中工作。训练使用了 Prime Intellect 的另一项创新 GENESYS，用于生成数千个数学、逻辑和编码问题，以及可以立即评分答案是否正确的自动检查器。
SHARDCAST，一种新的系统，用于在网络上快速分发大型文件（例如更新后的模型权重）。SHARDCAST 没有让每台机器从中央服务器下载更新，而是使用一种结构，让机器彼此共享更新。这保持了网络的效率、速度和弹性。

Intellect-2 分布式 RL 训练基础设施。（来源：Prime Intellect）

SYNTHETIC-2，下一代生成和验证推理任务的框架；
Prime Collective Communications Library，它实现了高效且容错的集体通信操作，例如通过 IP 进行规约，并提供共享状态同步机制，以保持对等点同步，并允许在训练期间随时动态加入和离开对等点，以及自动带宽感知拓扑优化；
持续增强 TOPLOC，以实现可扩展、低成本的推理证明，从而验证模型输出；以及
基于 INTELLECT2 和 SYNTHETIC1 的经验教训，改进 Prime Intellect 的协议和加密经济层

Pluralis Research

模型并行性

Pluralis 的训练架构利用了模型并行性，这与 Nous Research 和 Prime Intellect 在其初始训练运行中实现的数据并行方法不同。随着模型规模的增长，即使是 H100 机架（最先进的 GPU 设置之一）也不足以容纳整个模型。模型并行性通过将单个模型的各个组件分布到多个 GPU 上，从而引入了一种解决此问题的方法。

模型并行性主要有三种方法。

流水线并行性：模型的层被分配到不同的 GPU 上。每个小批量的数据像装配线一样流经这些 GPU 进行训练。
张量（层内）并行性：不是给每个 GPU 完整的层，而是将每个层中的繁重计算分开，以便多个 GPU 同时分担单个层的工作。
混合并行性：在实践中，大型模型混合使用各种方法，将流水线并行性和张量并行性结合使用，通常与数据并行性结合使用。

模型并行性是分布式训练的一项重要进步，因为它允许训练前沿规模的模型，使较低级别的硬件能够参与，并确保没有任何一个参与者可以访问完整的模型权重集。

协议学习和协议模型

按训练设置（开放与封闭数据）和模型权重可用性（开放与封闭）对不同语言模型进行定位。来源：Pluralis

去中心化训练创新

除了经济方面的考虑之外，协议学习还面临着与其他去中心化训练项目相同的核心挑战，即使用具有通信约束的异构 GPU 网络训练大型 AI 模型。

6 月，Pluralis 宣布成功训练了一个基于 Meta 的 Llama 3 架构的 80 亿参数 LLM，并发布了其协议模型论文。在其中，Pluralis 展示了如何减少进行模型并行训练的 GPU 之间的通信开销。它通过将流经每个 transformer 层的信号限制在一个微小的、预先选择的子空间来实现这一点，从而将正向和反向传递压缩多达 99%，从而使网络流量减少 100 倍，而不会损害准确性或增加明显的开销。简而言之，Pluralis 找到了一种方法，可以将相同的学习信息压缩到早期方法所需带宽的一小部分中。

最后，7 月，Pluralis 发表的一篇关于流水线并行训练的异步训练论文被 ICML（领先的 AI 会议之一）接受。流水线并行训练在互联网上而不是在高速数据中心进行时，也面临着通信瓶颈，因为节点本质上像装配线一样运行，每个连续节点都在等待前一个节点更新模型。这会导致过时的梯度和延迟的信息传输。SWARM 是论文中展示的去中心化训练框架，它消除了通常将日常 GPU 排除在训练之外的两个经典瓶颈：内存容量和严格同步。它们的消除可以更好地利用所有可用的 GPU，加快训练速度并降低成本，所有这些对于使用分布式、基于志愿者的基础设施扩展大型模型至关重要。有关此过程的简要说明，请观看 Pluralis 的这段视频。

展望未来，Pluralis 表示计划很快启动一次实时训练运行，任何人都可以参与，但尚未确定日期。此次发布将让人们更深入地了解尚未发布的协议方面，特别是经济模型和加密基础设施。

Templar

背景

在 Templar 上训练

Templar 使用数据并行性进行训练，其中有两个主要参与者：

矿工：这些参与者执行训练任务。每个矿工与最新的全局模型同步，获取唯一的数据分片，使用正向和反向传递在本地进行训练，使用自定义 CCLoco 优化器（如下所述）压缩梯度，并提交梯度更新。
验证者：验证者下载并解压缩矿工提交的更新，将其应用于本地模型副本，并计算损失增量，这是一种衡量模型改进程度的指标。这些增量用于通过 Templar 的 Gauntlet 系统对矿工的贡献进行评分。

为了处理通信开销，Templar 的研究团队首先开发了 Chunk Compressed DiLoCo (CCLoco)。与 Nous 类似，CCLoco 改进了通信高效的训练技术，例如 Google 的 DiLoCo 框架，从而使节点间通信成本降低了几个数量级，同时减少了此类方法通常导致的损失退化。CCLoco 不是每一步都发送完整的更新，而是在设定的时间间隔内仅共享最重要的更改，并保持一个小的运行总计，这样就不会丢失任何有意义的内容。该系统在一个基于竞争的模型上运行，矿工受到激励提供低延迟更新以赚取奖励。为了获得奖励，矿工必须通过部署高效的硬件来跟上网络的步伐。这种竞争结构旨在确保只有能够维持足够性能的参与者才能为训练过程做出贡献，而轻量级的健全性检查会过滤掉明显不良或格式错误的更新。8 月，Templar 正式发布了更新后的训练架构，并将其重命名为 SparseLoCo。

Templar 去中心化训练架构。来源：Templar 团队。

迄今为止，Templar 已经启动了三次训练运行：Templar I、Templar II 和 Templar III。Templar I 是一个 12 亿参数的模型，涉及全球近 200 个 GPU。Templar II 正在进行中，并且正在训练一个 80 亿参数的模型，并计划很快启动一个更大的训练运行。Templar 目前专注于训练较小参数的模型，这是一个经过慎重考虑的选择，旨在确保去中心化训练架构升级（如上所述）在扩展到更大的模型尺寸之前有效。从优化策略和调度到研究迭代和激励结构，在较小的 80 亿参数模型上验证这些想法使团队能够快速且更具成本效益地进行迭代。随着最近的进展和训练架构的正式发布，9 月，该团队启动了 Templar III，这是一个 700 亿参数的模型，也是迄今为止去中心化领域中最大的预训练运行。

TAO 和激励机制

Gensyn

Gensyn 于 2022 年 2 月发布了其第一份简报，其中概述了去中心化训练的框架（Gensyn 是我们在最初的了解加密货币和 AI 的交叉点文章中涵盖的唯一去中心化训练协议去年）。当时，该协议主要侧重于与 AI 相关的工作负载的验证，使用户能够向网络提交训练请求，由计算提供商满足这些请求，并确保这些请求按承诺执行。

执行 – RL Swarm

Gensyn 在此技术栈中的第一个实现是一个名为 RL Swarm 的训练系统，它是用于训练后强化学习的去中心化协调机制。

RL Swarm 训练循环。来源：Gensyn

验证 - Verde

到目前为止，在本报告中讨论最少的去中心化训练方面之一是验证。Gensyn 的 GPU 市场的信任层 Verde 登场。通过 Verde，Gensyn 引入了一种新的验证机制，因此该协议的用户可以相信另一端的人正在做他们所说的事情。

使这成为可行的是 RepOps，这是一个“可重现的运算符”库，它迫使常见的神经网络数学（矩阵乘法、激活等）以固定的、确定性的顺序在任何 GPU 上运行。确定性方面在这里最关键；否则，验证者可能会产生不同的结果，即使两者都是正确的。因此，诚实的提供商会产生逐位相等的结果，使 Verde 能够将匹配视为正确性的证明。由于裁判仅重放一个微步，因此增加的成本仅为几个百分点，而不是这些过程中通常使用的完整加密证明的 10,000 倍开销。

Verde 验证协议架构。（来源：Gensyn）

8 月，Gensyn 发布了 Judge，这是一个可验证的 AI 评估系统，具有两个核心组件：Verde 和一个可重现的运行时，可保证跨硬件的按位相等结果。为了展示它，Gensyn 引入了一个“渐进式揭示游戏”，其中 AI 模型在信息被揭示时押注复杂问题的答案，Judge 确定性地验证结果并奖励准确的早期预测。

通信和协调：Skip-Pipe 和 Diverse Expert Ensembles

测试网

3 月，Gensyn 将其测试网部署在自定义的以太坊 rollup 上。该团队计划逐步推出对测试网的更新。目前，用户可以参与 Gensyn 的三个产品、RL Swarm、BlockAssist 和 Judge。如上所述，RL Swarm 使用户可以为 RL 后训练过程做出贡献。 8 月，该团队启动了 BlockAssist，“第一个大规模演示辅助学习，这是一种直接从人类行为训练代理的方法，无需手动标记或 RLHF。” 用户可以下载 Minecraft 并与 BlockAssist 一起玩游戏以训练 Minecraft 模型。

其他值得关注的项目

以上部分概述了为实现去中心化训练而实施的突出架构。但是，新项目会定期加入进来。以下是去中心化训练领域的一些新项目：

前景和风险

训练后工作流程是一个越来越受关注的领域。**受监督的微调、RLHF 和特定领域的强化学习对同步带宽的需求远低于完整规模的预训练。像 PRIME-RL 和 RL Swarm 这样的框架已经在不稳定的消费级节点上工作，让贡献者可以在项目快速商业化定制模型的同时将剩余周期货币化。鉴于 RL 非常适合去中心化训练，因此它很可能会变得越来越重要，成为去中心化训练项目的关注领域。这使得去中心化训练有可能首先在 RL 训练中找到大规模的产品市场契合点，越来越多的团队推出特定于 RL 的训练框架就证明了这一点。激励和验证滞后于技术创新。激励和验证仍然滞后于技术创新。只有少数网络，最值得注意的是 Templar，提供实时代币奖励和链上罚没，这些措施可以有效阻止不当行为，并且已经在真实环境中经过测试。虽然其他项目正在试验声誉评分、见证人证明或培训证明计划，但这些系统仍未经证实。即使克服了技术障碍，治理也将构成同样严峻的挑战，因为去中心化网络必须找到制定规则、执行规则和解决争端的方法，而不会重蹈加密 DAO 中出现的效率低下的覆辙。解决技术难题只是第一步；长期可行性取决于将其与可信的验证、有效的治理以及引人注目的货币化/所有权结构相结合，这些结构可以确保对所做工作的信任，并吸引扩展所需的才能和资源。

风险

硬件和软件优化是一个不断变化的目标——中心化实验室不断扩展该领域。英伟达的 Blackwell B200 芯片在 MLPerf 基准测试中，4050 亿参数预训练和 700 亿 LoRA 微调的训练吞吐量比上一代快 2.2-2.6 倍，缩短了最大玩家的时间和能源成本。在软件方面，PyTorch 3.0 和 TensorFlow 4.0 引入了编译器级别的图融合和动态形状内核，从而从相同的芯片中榨取了更多的性能。随着硬件和软件优化的改进，或者发现新的训练架构，去中心化训练网络将不得不跟上步伐，不断更新其堆栈以适应最快和最先进的训练方法，以吸引人才并激励有意义的模型开发。这将要求团队开发软件，以确保持续的高性能，无论底层硬件如何，以及使这些网络能够适应底层训练架构变化的软件堆栈。

结论

原文链接： galaxy.com/insights/rese...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

去中心化AI训练：架构、机遇与挑战

去中心化 AI 训练：架构、机遇和挑战

介绍

模型训练基础知识

Transformers

训练（预训练和后训练）

训练开销

去中心化训练和分布式训练

项目概览

Nous Research

背景

DeMo 和 DisTrO

Psyche

Solana 的作用

Hermes 模型系列

Atropos

Prime Intellect

背景

OpenDiLoCo、Intellect-1 和 PRIME

协议

INTELLECT 2 和强化学习

Pluralis Research

模型并行性

协议学习和协议模型

去中心化训练创新

Templar

背景

在 Templar 上训练

TAO 和激励机制

Gensyn

执行 – RL Swarm

验证 - Verde

Verde 验证协议架构。（来源：Gensyn）

通信和协调：Skip-Pipe 和 Diverse Expert Ensembles

测试网

其他值得关注的项目

前景和风险

风险

结论

0 条评论

文章目录