文章探讨了当前AI行业缺乏透明度和信任,以及高准入门槛限制了AI应用扩展的问题。为了解决这些挑战,文章介绍了FLock.io,一个旨在通过将区块链元素与联邦学习方法相结合,实现AI模型生命周期民主化的平台,目标是创建一个更具创造性和可信赖的AI行业。
当前的人工智能行业在人工智能模型开发的整个生命周期中缺乏透明度和信任。此外,高准入门槛限制了人工智能应用在各行各业的扩展。
为了应对这些挑战,联邦学习采用了一种方法,将模型分发给本地客户端进行独立训练。只有经过训练的参数会被聚合以更新全局模型。这种方法在降低开发全局模型的总体成本和最大限度地减少敏感个人数据的暴露方面具有巨大的潜力,从而大大提高了可用性。
然而,联邦学习也面临着自身的局限性。主要挑战包括难以招募到足够多样化和诚实的参与者群体进行模型训练,以及依赖中心化服务器进行某些运营任务。
FLock.io 旨在通过将各种区块链元素与联邦学习方法相结合来克服这些局限性。其最终目标是使整个人工智能模型生命周期(从数据收集和模型提案到训练和应用)民主化,为更具创造性和可信赖的人工智能行业铺平道路。
你且只有你,对你的人生选择和决定负责。
— 罗伯特·T·清崎**
普通成年人每天做出大约 35,000 个大大小小的决定 (Sollisch, 2016)。虽然这些决定中的大多数可能是凭直觉和瞬间做出的,但我们经常投入大量时间和资源来寻求我们选择的理由,因为我们希望它们是最好的决定。
如今,基于人工智能的服务的广泛采用反映了这一现象。在信息饱和的数字环境中,我们积极拥抱人工智能策划的信息——有时甚至为此付费——以快速获取提炼后的数据,或者找到针对我们特定情况的最优化解决方案。
但是,我们必须仔细检查这种便利的另一面:我们真的可以信任这些服务提供的结果吗?这些结果是否充分反映了我们的需求?我们可以期望人工智能服务在各个行业中保持一致的质量吗?
虽然不可否认的是,人工智能技术已经以惊人的速度发展,但如果它还不能对这些问题提供明确的答案,我们就必须保持谨慎。过度依赖人工智能服务可能会导致自主性丧失,甚至决策瘫痪。
即使从结构的角度来看,也能直观地认识到,人工智能驱动服务产生的结果不能完全信任。最广为人知的原因之一是无法从逻辑上解释这些输出背后得出的推理过程(即,“黑盒”问题)- 推理过程通常涉及数百万到数十亿个参数通过复杂的数学计算进行交互。这种复杂的结构使得理解模型如何工作具有挑战性,从而大大削弱了信任其输出的理由。
此外,用于训练人工智能的数据的可靠性是另一个关键问题。用于人工智能训练的数据集通常不足以得出泛化的结论,并且可能存在偏差。此外,与新近更新的数据的快速生成相比,可用于训练的数据量非常有限,并且为此类数据进行推理的预处理通常会导致上下文信息的丢失。此外,当人工智能服务旨在向用户提供个性化和量身定制的体验时,它们可能需要来自用户的敏感或上下文数据。但是,此类数据通常难以收集,这可能导致数据集不足以进行有效的学习。毕竟,不能期望个人不断存储每个决策时刻的动态上下文数据,而且出于隐私方面的考虑,他们也不希望这样做。
除这些固有挑战之外,阻碍人工智能技术在各个行业中采用的一个特别值得注意的障碍是高昂的运营成本。推进人工智能需要构建数据管道基础设施,包括收集多样化的数据集以及对大量模型进行迭代实验。但是,建立和维护此类基础设施需要天文数字般的成本。换句话说,新的人工智能模型和服务的研发本质上需要大量资本,从而为财务资源有限的行业或新参与者造成了巨大的准入门槛。
最终,为了使人工智能驱动的服务变得优化、可信赖并在各个领域中得到广泛采用——从而与现有行业产生协同作用——当前的人工智能发展方法必须进行结构性改革。这包括可靠地收集更多样化和上下文的数据集,以及建立新的机制和治理结构,以降低更广泛的研究人员和公司的准入门槛。如果在这个对人工智能服务进行决策的需求和依赖正在加速的关键时刻,对其功能和可信赖性的怀疑正在消退,并且用户只是接受所提供的信息,那么该行业将难以进行创造性和竞争性的发展。同时,这可能会导致个人生活质量更加单调和缺乏活力。
解决传统人工智能行业结构性挑战的努力并非没有。联邦学习是这方面一个值得注意的例子。
联邦学习最初由 McMahan, H. B., 和其他谷歌研究人员发表的论文 中提出,与依赖中心化服务器收集和训练所有数据的传统人工智能模型相比,联邦学习引入了一种根本不同的方法。相反,它将人工智能基础模型发送到本地客户端,每个客户端都有独特的数据集,从而可以在他们的设备上进行实时训练。然后,中央服务器聚合在这些本地数据集上训练的参数,以构建全局模型,然后将该全局模型发送回本地客户端以进行进一步更新。这个迭代过程一直持续到最终模型完全完成。
从本质上讲,参与者(例如,医院、公司、个人)将其数据保留在本地,并且仅通过与中央服务器共享学习到的参数来为模型训练做出贡献。这消除了将原始数据暴露给第三方的担忧。此外,由于参与者直接从中央服务器接收模型结构和初始参数,因此他们可以透明地验证其数据如何被处理和利用,从而增强对最终模型的信任(即,“白盒”方法)。
此外,中央服务器改进模型的方法——计算多个客户端训练的参数的加权平均值——在某些情况下,可以产生比使用传统的超参数调整开发的模型更客观和与上下文相关的模型。此外,由于数据存储和训练计算完全发生在本地客户端上,因此联邦学习在降低模型开发的总体存储和计算成本方面具有优势。
联邦学习的应用范围很广。其最突出的用例包括利用敏感个人数据的服务,由于隐私问题,这些数据难以收集(例如,金融或医疗数据)、个性化的人工智能代理以及用于自动驾驶汽车的实时自定义逻辑开发,这些自动驾驶汽车不断从大规模的最新数据中学习以实施驾驶算法。
尽管联邦学习具有许多优势,但尚未在各个行业中得到广泛采用。主要限制可以概括如下:
通信开销和对中心化服务器的依赖
当联邦学习网络涉及数千万甚至数亿台设备时,中心化服务器和客户端之间的通信可能会变得过载。解决这个问题需要增强通信效率的解决方案,例如减少通信总次数、减少通信客户端数量或实施模型压缩等技术来减小传输数据的大小。需要仔细考虑这些方法并根据特定的建模要求进行调整。
尽管一些计算是在本地客户端上执行的,但中心化服务器最终会更新全局模型,从而引入了潜在的单点故障。
容易受到模型/数据污染
污染攻击涉及将恶意损坏的数据引入训练过程,从而显着降低最终模型的性能。由于联邦学习的结构,即使是少数攻击者也可以对网络发起成功的攻击。
此外,由于联邦学习仅共享来自本地客户端的模型参数更新,因此服务器很难识别恶意客户端。
系统/统计异质性和难以保护活跃客户端
人工智能模型训练通常假设收集的数据是独立且同分布的(即,IID)。因此,确保足够数量的数据(或客户端)至关重要。
但是,不能忽视客户端参与联邦学习的具有无偏条件(例如,存储、计算和通信能力)的可能性。此外,正如在污染攻击的背景下所指出的那样,联邦学习可能仅受到少数恶意行为者的破坏,这限制了可以参与的可控训练节点的数量。
容易受到逃避攻击
逃避攻击涉及对输入数据进行最小程度的操纵,以误导模型进行不正确的学习(例如,向原始数据添加难以察觉的噪声以最大化模型的损失函数)。
在联邦学习中,攻击者可以观察到在网络中共享的参数,从而更容易通过此类攻击修改已经优化的参数。
从本质上讲,联邦学习的根本挑战源于难以招募足够数量的积极和诚实的参与者来参与模型训练,以及该设计仍然依赖中心化服务器来执行某些关键操作。
在这种情况下,将区块链集成到联邦学习的现有架构中可以解决该技术目前面临的许多挑战并推动重大进展。区块链的核心是建立一个系统,通过实施透明且可验证的网络结构来激励不同的参与者为平台运营做出贡献。
例如,联邦学习平台可以通过引入一种激励机制来分配网络中的各种角色并提供参与动机,从而分散中心化服务器的权限和角色。此外,通过实施惩罚恶意行为并根据贡献分配奖励的 PoS 结构,该平台可以维持模型训练和验证的质量。这些措施为平台有效应对诸如污染攻击和女巫攻击之类的安全威胁奠定了基础。
来源:FLock.io
通过创建一个平台,使不同的利益相关者(例如,普通数据提供商、负责训练、调整和推理的节点、负责评估和验证的验证者以及人工智能开发人员)可以在激励驱动的框架下进行协作,以通过联邦学习实施各种人工智能模型, FLock.io 使这个想法变成了现实。社区成员可以提出他们需要的人工智能模型,而人工智能开发人员可以在 Kaggle 风格的排行榜上竞争,以生成针对这些请求的最佳性能模型。然后,将最终确定的人工智能模型分发到市场上,以用于各种应用程序。
FLock.io 团队的最终愿景超越了实验性的实施。他们的目标是通过将区块链技术应用于联邦学习,使整个人工智能模型的生命周期(从采购可靠数据和提出模型到训练和部署模型)民主化,并将人工智能行业提升到更具创造性和可信赖的水平。该团队一直在探索区块链和联邦学习的协同作用和互补方面,他们的 超过 10 篇学术论文和研究成果的广泛组合 证明了这一点。
3.2.1 FLock.io 网络的三个支柱
FLock.io 于去年 5 月作为测试网启动,它作为一个协作框架运行,连接了三个核心组件:人工智能竞技场、FL 联盟和人工智能市场。该架构通过利用区块链技术的各种元素,以独特的方式应对在传统联邦学习中观察到的挑战。
在深入研究详细描述模型最终如何开发的工作流程之前,这里简要概述了每个组件:
人工智能竞技场(Beta 版本)
人工智能竞技场是一个平台,加粗任务创建者加粗 在此提出满足特定要求的人工智能模型。在此空间中,选择基本模型并进行初始训练。为了提出模型,加粗任务创建者加粗 必须满足某些资格要求,例如质押特定数量的网络代币(即,$FML)或者在机器学习领域具有相关经验。目前,加粗任务创建者加粗 仅限于 FLock.io 团队,但该平台计划将来向社区开放此角色。
参与者还可以作为 加粗训练节点加粗(负责训练模型)或 加粗验证者加粗(负责验证模型)做出贡献。通过增加社区的总质押和委托份额,可以选择来验证提交的可能性。但是,这种增加遵循向下凹的增长模式,这意味着增加率会随着总质押的增长而降低。
根据 仪表板,截至 2024 年 11 月 26 日,每天有超过 500 个 加粗训练节点加粗 和 1,000 个 加粗验证者加粗 处于活跃状态。迄今为止,已训练了大约 18,000 个基本模型,并执行了超过 200 万次验证。
FL 联盟
FL 联盟改进了在人工智能竞技场中创建的基本模型,以生成最终的全局模型。称为 加粗FL 节点加粗 的参与者通过 FLocKit 和 FL 客户端与链下存储进行交互来做出贡献。他们下载全局模型,对其进行训练,然后重新上传更新的权重,从而为创建最终模型做出贡献。此聚合过程采用零知识证明(如 FLock.io 团队在此处提出的 建议),确保客户端数据免受暴露或窥视。
与人工智能竞技场类似,加粗FL 节点加粗 必须质押一定数量的 $FML 代币才能参与训练过程。如果给定轮次的聚合投票不是负数,则所有 加粗提案者加粗 将收到与其质押份额成比例的奖励。但是,如果结果为负数,则该轮次的所有 加粗提案者加粗 的质押代币将被削减。此外,未能参与给定轮次的 加粗提案者加粗 也会被削减代币。
人工智能市场
人工智能市场是一个“共同创造”中心,其中托管了通过人工智能竞技场和 FL 联盟进行微调的最终模型。在这里,用户可以直接使用这些模型,也可以进一步调整它们以用于各种应用程序。
该市场还允许对模型进行持续的微调,从而确保持续的更新。参与者可以使用外部来源为此微调过程做出贡献,并因其努力而获得奖励 - 此过程称为检索增强生成 (RAG),它通过从外部知识库中检索事实并基于最准确和最新的信息构建响应来提高大型语言模型 (LLM)(如 ChatGPT)的性能。
3.2.2 FLock.io 网络的工作流程
FLock.io 网络的工作流程基于上述组件,可以概括如下:
加粗任务创建者加粗 生成他们希望训练的模型,并通过人工智能竞技场分发任务。
加粗训练节点加粗 执行分发任务的初始训练,并将训练后的模型提交给 加粗验证者加粗 进行评估。
加粗验证者加粗 评估提交的模型,并通过共识对其进行排名。
共识批准的模型被分配给 FL 联盟。在 FL 联盟内,每个客户端在每一轮中都会被随机指定为 加粗提案者加粗 或 加粗投票者加粗。被选为 加粗提案者加粗 的客户端使用其本地数据微调分配的模型,以创建改进版本的 FL 全局模型。加粗投票者加粗 聚合由 加粗提案者加粗 提出的 FL 全局模型,使用其本地测试数据集对其进行评估,并投票支持或拒绝提出的更新。
全局模型根据每一轮的聚合投票结果进行最终确定,并且奖励将分配给参与 FL 联盟任务的所有参与者。
然后,将最终确定的人工智能竞技场共识模型或 FL 全局模型部署在人工智能市场上,以用于各种应用程序。
通过在整个训练阶段(即,人工智能竞技场的第 1 步 ~ 第 3 步)和微调阶段(即,FL 联盟的第 4 步 ~ 第 5 步)应用 DPoS 共识算法和削减规则,FLock.io 网络有效地减轻了传统联邦学习方法面临的许多攻击向量。此外,该网络还引入了一种针对各种角色量身定制的强大的奖励机制,从而激励了整个生态系统中更大的参与度。
由于联邦学习是训练人工智能模型的方法之一,因此从根本上说,它可以应用于当前由人工智能服务服务的所有用例。
但是,正如引言中所提到的,联邦学习的特点尤其在于其相对更好地访问高度敏感和上下文数据,前提是要有来自各种贡献者的积极和诚实的参与。因此,源自这些优势以及解决中心化人工智能缺点的用例可能会变得更加突出。
此外,任何人都可以自由地在 FLock.io 上请求所需的模型和规范的能力增强了这些用例之间的协同作用,从而以更民主的方式促进了人工智能模型的创建。
特定领域和定制化的代理/助手
人工智能服务的性能在很大程度上取决于它们收集的数据。联邦学习尤其允许访问来自个人的各种敏感数据,从而可以创建针对特定领域量身定制或定制以满足特定要求的人工智能模型。
此类服务可以采取多种形式,包括聊天机器人、代理或助手。例如,FLock.io 已经提供了诸如 Text2SQL 之类的服务,该服务将文本转换为 SQL(例如,Chainbase 的 Theia)、人工智能辅助编码工具(例如,Aptos 的 Move Code Agent)以及各种其他特定用途的服务(例如,与 Animoca Brands 的谅解备忘录),这些服务已可用或正在开发中。
除了这些示例之外,联邦学习还可以应用于诸如基于个人健康数据的个性化健康监测之类的服务,以及诸如财务部门应用程序,如交易、信用评分、欺诈检测和客户服务。
实时和按需服务
像 FLock.io 这样的联邦学习平台的另一个重要特征是它们激励不同的参与者,使其能够从广泛的贡献者中快速收集最新数据。这种能力对于传统的中心化人工智能系统(依赖于大型数据集的精确批量训练)难以跟上的任务尤其有价值。基于联邦学习的人工智能模型配备了可信赖且快速应用的数据,可以在需要最新知识的服务中提供卓越的性能。
例如,协议特定的聊天机器人服务,如比特币 GPT、FLock GPT 和 Farcaster GPT,这些服务可以在 FLock.io 平台上找到,都是优秀的案例。这些服务动态调整以反映快速发展的协议生态系统的复杂性,从而为用户提供不断改进和更新的输出。与 ChatGPT 等传统服务相比,这使用户可以访问更精确和最新的信息。
与 Web3 项目协同构建 Onchain 数据管道
如果以上两个示例演示了 FLock.io 如何补充现有服务,那么本节重点介绍了它通过与其他链上项目合作创建协同效应的潜力。
在传统的 IT 市场中,我们已经见证了数据管道基础设施的革命性增长如何导致对有价值的见解的发现,进而刺激了突破性应用程序的创建。同样,构建链上数据管道可以将链上数据安全地分发给各种利益相关者,发现对 Web3 生态系统有意义的见解,并激励参与者开发各种 Web3 原生应用程序,从而振兴生态系统。
FLock.io 在链上数据管道中采购和转换数据方面表现尤为出色,为有影响力的人工智能模型的生成做出了贡献。但除此之外,通过与其他项目协同工作,FLock.io 可以为链上数据管道提供增强的基础设施环境,从而支持更好的应用程序 - 例如,FLock.io 组织了一次 黑客马拉松,利用 Akash 网络的计算能力来训练模型,并且通过为 io.net、Gensyn 和 Ritual 等去中心化托管网络提供插件,进一步降低了参与者参与其服务的准入门槛。
加粗供应方加粗
对于任何旨在吸引不同参与者和构建可持续系统的联邦学习平台来说,最优先的事项是证明可以通过该平台成功开发出有竞争力的人工智能模型。为了实现这一目标,FLock.io 已经明确定义了其生态系统内的各种角色,包括 加粗任务创建者、数据提供商、训练节点、验证者、委托者和 FL 节点加粗,并设计了一个奖励系统,以确保每个角色都以最佳性能为网络做出贡献。
此过程的关键方面是设计代币经济学,以确保通过供应机制提供的代币不超过需求方的要求。为了解决这个问题,FLock.io 提出了几种机制,包括收取平台费用(即,$FML)或要求质押 $FML 代币才能参与,以及对协议收入的某些部分实施代币销毁机制* - 有关代币供应和相关机制的详细计算已在 FLock.io 白皮书 中进行了全面概述。
* 但是,由于 FLock.io 仍处于测试网阶段,因此尚未证明供应机制是否能很好地建立可持续的经济。
加粗需求方加粗
一旦 FLock.io 平台证明了其产生有竞争力的人工智能模型的能力,各种形式的需求就会出现。例如,如前所述,社区、协议、学术机构和企业可以通过该平台请求量身定制的人工智能模型并付费。这些模型还可以通过使用费或人工智能市场中提供的持续微调服务来获利。
此外,我们可以预测来自不直接参与联邦学习,而是将其 $FML 代币委托给特定节点的参与者的需求。通过这样做,这些参与者间接通过授权各种网络参与者以最好的状态竞争和执行工作,从而有助于提高平台的整体质量,同时获得委托奖励。随着需求的增长和 $FML 代币的价值增加,这反过来可能会吸引高质量的参与者加入网络,从而促进加强平台的良性循环*。
* 在这种情况下,$FML 代币可能会超越仅仅作为委托奖励机制的作用。它可以作为治理代币发挥关键作用,使社区能够参与从技术更新和财务管理到 FLock.io 平台上的其他各种社区计划的治理议程。
ChatGPT 表明,一旦人工智能技术克服了某些障碍,它就可以为我们的生活带来便利,并有可能实现爆炸式采用。而且,这种便利现在已经无缝地集成到我们的日常生活中。因此,许多公司都在努力开发各个领域的专有人工智能技术。但是,由于该行业是资本密集型的,因此这些努力通常在实现成功方面面临重大的挑战。当然,正如迄今为止的众多采用案例所证明的那样,中心化人工智能模型提供的优势是不可否认的。这使得现有的大型人工智能模型提供商可能会继续快速增长,并在各个领域推出突破性的新解决方案,这些解决方案可能会再次让我们感到惊讶。
然而,正如引言中所指出的那样,即使在这样的未来,仍然没有坚实的基础可以完全信任中心化的人工智能服务。这种缺乏信任可能会导致难以访问所需数据,从而使人工智能模型始终不完整。这正是我们需要民主化人工智能技术的原因。我们当然可以探索克服现有行业结构性限制的方法,使更多的人可以分享人工智能进步的收益,并在各个领域促进人工智能的创造性发展。
FLock.io 基于区块链的联邦学习方法解决了并减轻了人工智能模型传统学习方法中固有的问题。除此之外,这种方法还有可能使整个过程民主化,从数据采购到最终创建人工智能模型,从而吸引更多的参与者并使创新模型出现在更广泛的范围内 - 通过允许没有深厚人工智能领域知识的人参与,FLock.io 使模型创建过程民主化。 在模型生成和训练阶段,它可以访问来自数据提供商的专有数据,从而促进了 数据的民主化。 此外,随着人工智能的进步及其社会价值的提高,这种方法可确保这些收益在不同的参与者中得到广泛分享。通过使任何人都可以质押并分享这些收益来,价值的分配本身也可以实现民主化。
当然,确保网络保持稳定,同时保持激励措施,这些激励措施充当高质量参与者的有吸引力的奖励,并解决联邦学习固有的挑战,这将是 FLock.io 未来发展的关键任务。但是,至少,FLock.io 的努力在展示人工智能通过确保公平地访问和参与人工智能技术,从而充当社会中的统一力量(而不是加剧分裂)的潜力方面具有重要意义。
- 原文链接: 4pillars.io/en/articles/...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!