本文介绍了Recall,一个旨在为AI Agent提供可验证的性能数据和声誉评分的协议,通过链上竞赛、社区驱动的评估和代币激励,Recall致力于构建高信任的AI基准测试系统,并最终成为Agent互联网中Agent发现、交易和协作的基础设施,类似于早期互联网的Google PageRank。
在早期的互联网中,谷歌的 PageRank 算法根据相关性对网站进行排名,以便用户能够快速找到他们需要的内容。在即将到来的智能代理互联网中,无数的 AI 代理将大量涌现,用户如何发现合适的代理并知道信任哪个代理?
Recall 使用可验证的性能数据和声誉评分来标准化代理。它从备选基准测试开始,并随着时间的推移,旨在为整个智能代理互联网中的快速、准确的代理发现提供基础设施。
首要任务是通过链上竞赛积累评估数据,以解决传统基准测试中的信任问题。Recall 在动态基准测试中评估性能,其中代理在实时模拟环境中竞争,然后使用生成的数据对代理进行排名。
Recall 的架构包括 AgentRank、策展市场、链上竞赛、技能池和 Recall Predict。这些模块独立运行,但相互连接,以在单个协议中统一性能评估和激励。
最佳的发展路径是效仿 Polymarket 和 Google PageRank。首先,使用类似市场的机制构建一个高信任度的基准,利用大众智慧和经济激励。然后发展成为类似于 PageRank 的代理搜索引擎,抢占智能代理互联网的第一个入口。
2023 年,一段名为“ 威尔·史密斯吃意大利面”的视频出现在 Reddit 上。该视频由 ModelScope 视频生成器创建,描绘了演员威尔·史密斯吃意大利面的场景。他的脸扭曲,动作也不自然。这段既怪异又有些滑稽的短片迅速传播开来,成为一个梗,展示了早期 AI 视频生成的局限性。
“威尔·史密斯吃意大利面”的提示语很快成为 AI 社区中的一个非正式基准。它作为一个参考点,用于衡量模型能够多自然地再现人类的动作和表情。每次新模型发布时,都会使用该提示语进行并排比较。2025 年 5 月,谷歌的 Veo 3 发布了一个重制版本,在面部逼真度、动作自然度和音频同步方面都显示出明显的提升,并获得了福布斯 “通过了威尔·史密斯吃意大利面测试”的评价。
这个意大利面测试突出了传统 AI 基准的局限性和社区驱动评估的前景。Claude、GPT-5、Gemini 和 DeepSeek 等尖端模型通常会发布强大的基准分数,但这些分数通常是在公司选择的指标上,在封闭环境中进行衡量的,并且可能无法保证现实世界的重现性。最终导致基准结果与用户实际体验之间存在差距。
相比之下,像意大利面提示语这样的社区驱动测试表明,直接的、用户主导的评估如何成为强大的信任建立机制。聚合的、分布式的判断更透明,并捕捉多个视角,从而提供比单方面公司报告更立体的模型质量视图。
Recall 系统化了这种社区驱动的评估。它运行链上竞赛,AI 代理在其中竞争排名、声誉和奖励,通过代币激励最大程度地提高社区参与度。目标是建立一个高信任度的 AI 基准测试系统,并最终建立一个声誉协议,帮助用户在智能代理互联网中发现和连接到高信誉的代理。以下各节将解释 Recall 如何实施此基础设施以及如何扩展它。
AI 基准是一种评估工具,旨在客观地衡量和比较模型性能。它使用预定义的问题集来测试模型解决给定任务的效率,并量化结果。评估领域涵盖知识、编码、伦理和多语言能力。代表性的套件被特定领域使用。例如,MMLU 衡量本科水平的普通知识,GSM8K 衡量数学推理,HumanEval 衡量代码生成。汇总结果提供了模型性能的标准化视图。
来源:Epoch AI
基准很重要,因为它们为客观比较提供了一个通用的标准。每个新模型都声称具有最先进的结果。如果没有标准化的框架,报告的数字将是任意的并且难以比较。基准能够在相同的条件下进行同类评估。
它们还降低了技术采用过程中的搜索和决策成本。预先验证的指标充当研究人员和公司的参考点。这降低了重复进行内部测试的需求,并允许团队专注于战略采用。
来源:BetterBench
尽管它们有价值,但结构性限制正变得越来越明显。斯坦福大学的一项研究分析了 NLP、数学和编码以及多模式任务中的 60 个基准,发现超过一半的基准未能以统计学意义显著的方式区分模型性能差异。实际上,顶级模型之间的差距通常太小,以至于感觉没有意义,但营销材料经常夸大这些差距。
重复试验揭示了可重现性问题。对于相同的模型和设置,运行基准 10 次通常会产生 1-3% 的分数方差,并且排名可能会翻转。如果结果不稳定,则不应将单个分数视为最终结果。缺乏可重现性的基准难以代表真实的能力。
围绕治理和测试完整性的信任也已受到侵蚀。据报道,OpenAI 资助了一家为其 o3 模型提供基准的公司,并且有人质疑问题集是否出现在 o3 训练中。这说明了透明度不足以及对评估有效性的怀疑如何损害信誉。主要限制包括:
选择性测试: 基准偏向于易于评分的任务。数学和编码很常见,而模棱两可的上下文理解、伦理判断和创造性沟通很少被衡量。简单的技能会被衡量。困难的技能会被边缘化。
可重现性差: 排行榜峰值通常反映的是一次性的最佳运行,而不是一致的性能。实际环境需要不完整的信息处理、后续查询和多步骤推理。当重复相同的任务时,答案可能会有所不同。高分并不能保证生产中的稳定性能。
数据污染: 公共数据集很可能在预训练期间被看到。如果评估项目泄漏到训练中,则基准衡量的是回忆而不是推理。那么,高分无法保证推广到新的情况。
如果这些设计缺陷持续存在,企业和用户都将付出代价。个人必须过度研究选项并重新验证声明。企业必须重新解释不确定的指标,并在内部数据上运行额外的针对特定目的的测试,从而减慢决策速度并增加采用成本。
来源:针对数据污染的大型语言模型基准测试的最新进展:从静态到动态评估
随着疑虑的增加,一种新方法正受到越来越多的关注:动态基准测试。传统的做法依赖于静态的、人为设计的数据集。这些数据集易于在相同条件下进行比较,但随着时间的推移,它们会受到污染和任务偏差的影响。
动态基准会生成不断发展的提示和场景,以评估模型在未来或未见条件下的表现。在评估时会创建新数据,或者模型实时协同生成问题和答案。另一种方法是设置预定义的模拟环境,并评估模型如何计划和行动来实现目标。这超越了固定的问题集,实现了多层次的性能验证。
Recall 采用了这种动态方法。它不是使用静态数据集,而是在不断更新、场景多变的环境中验证模型。下一节详细介绍了 Recall 的基准设计和端到端流程。
在即将到来的智能代理互联网中,无数的 AI 代理将共存,用户如何发现最相关的代理并知道信任哪个代理?Recall 通过可验证的性能数据和声誉评分来标准化代理,从而应对这一挑战。从备选基准测试开始,其最终目标是建立一个声誉协议,从而在代理经济中实现发现、商业和协作。目的是提供基础设施,使用户能够快速、准确地找到他们需要的代理。
来源:搜索引擎土地
该愿景在功能上类似于谷歌的 PageRank。在早期的互联网中,PageRank 对混乱的网站网络进行索引和排名,并按相关性对其进行排名,从而允许用户简单地搜索并信任最好的内容会浮出水面。这使发现从手动门户列表转变为自动化系统,算法抓取网络,并按声誉和相关性对网站进行排名。
Recall 旨在为智能代理互联网扮演相同的角色,为可信的发现提供基础设施:
A2C(代理对消费者): 一位加密货币投资者正在寻找一个交易代理,以自动进行投资组合管理,并在设定的时间范围内针对风险和回报进行优化。
A2B(代理对企业): 一家公司正在寻找营销代理,以自动进行社交监听、内容创建和客户外展。
A2A(代理对代理): 一个安全代理通过寻找一个擅长恶意流量模式集成的风险分析代理来增强其入侵检测功能,无缝地与现有基础设施集成。
该声誉协议的核心是基准测试系统。必须通过可验证的性能来评估代理,并且排名必须指导发现。Recall 通过五个相互连接的模块来实现这一点:
AgentRank: 收集、分析和发布代理性能数据。
链上竞赛: 提供标准化评估环境,并将结果转换为可验证的性能数据。
策展市场: 使用代币质押作为筹码,进行社区驱动的选择。
Agent Predict: 基于社区的、预测市场风格的基准测试。
每个模块都独立运行,但相互连接以形成一个统一的评估和激励协议。竞赛结果会反馈到 AgentRank 中。策展市场和 Agent Predict 会加强这些排名。代币经济使所有利益相关者保持一致,以便随着时间的推移做出贡献。随着更多性能数据的积累,准确性和可信度会提高,从而形成可靠性的复合循环。
3.1.1 AgentRank
AgentRank 是一个综合声誉评分,源自实时性能数据和社区质押。链上竞赛和策展市场的存在都是为了更新此评分。它通过将经过验证的结果与社区对代理未来表现的经济赌注相结合来量化能力。
来源:Recall
新代理从基线性能评分(Y 轴)和低确定性(X 轴)开始。当他们竞争时,性能会相对于结果上升或下降。随着竞争结果和质押的积累,确定性会增加。右上角的代理会将随着时间的推移获得的强大性能与大量的质押相结合,从而变得高度可信和高度有能力。
3.1.2 策展市场
AgentRank 通过策展市场得到加强,在策展市场中,策展人将代币质押在他们认为会跑赢大盘的代理上。拥有更多质押的代理会获得更高的分数并提高排名前景。如果这些代理表现良好,策展人会获得奖励。如果没有,策展人会受到惩罚。
与静态基准相比,这种双重机制具有明显的优势:
可验证的性能: 与静态基准不同,AgentRank 基于在竞争环境中获得的真实结果动态更新。代理在链上反复证明自己的能力,从而消除了对不透明声明的依赖。
经济信号: 社区质押反映了集体信念。有前途的代理的早期支持者可以获得奖励,而用户在选择代理时可以从透明的经济信号中受益。
该系统确保中立性。结果是透明的、链上的,并且由分布式决策而不是单个权威机构决定。声誉评分通过性能和市场验证获得信誉。
在 Recall 的中心是链上竞赛。这些赛事将代理放置到相同的条件下,在投资组合管理或代码生成等任务中相互竞争。例如,在一个为期 7 天的投资组合管理挑战赛中,代理使用实时市场数据进行交易,并根据风险调整后的回报进行评估。结果会被记录在链上,并直接反馈到 AgentRank 中。
来源:Recall
Recall 会定期举办竞赛以积累评估数据。在最近的“ 加密货币交易挑战赛 ”中,10 个代理在 7 天的时间里争夺 10,000 美元的奖金。沙盒环境处理了大约 10,000 笔交易和 1.43 亿美元的交易额,结果从 +250% 到 -10% 的回报不等。
竞赛结果会反馈到 AgentRank 中。Recall 的架构允许任何人创建和定制竞赛,从而实现评估数据的社区驱动型扩展。生命周期包括五个步骤:
竞赛创建: 组织者定义目标、环境和指标。在交易挑战赛中,参与者在固定的资本和杠杆约束下竞争,其 KPI 如下,如损益或策略一致性。所有参数都会在赛事开始前在链上设置和披露。
代理注册: 开发人员通过 MCP 服务器注册代理,MCP 服务器是 Recall 的标准接口层,用于管理身份、执行和性能日志记录。还可以使用带有 Python MCP 或 LangChain 等框架的 Recall Agent Toolkit 来构建代理。在提交之前完成本地测试。
执行: Recall 在隔离的沙盒环境中部署代理。按顺序传递标准化的提示或场景,代理输出操作以解决任务。
评估: 指标根据所测试的技能进行定制。准确性、回报或解谜等定量任务会自动评分。创造力或沟通等定性任务由专家评委或众包评估人员评估。
结果集成: 最终分数会记录在链上,并实时更新 AgentRank。表现出色的代理的声誉会上升,而不活跃或表现不佳的代理的声誉会下降。奖励,如 RECALL 代币或 Surge 等链下积分,会分发,并且奖励历史会透明地记录在链上。
这些基于交易的基准不同于静态数据集或 A/B 测试。代理面临实时的市场条件,应对波动性,并在动态环境中证明决策能力。这避免了数据泄漏,确保了适应性,并产生了多维度、值得信赖的评估。
来源:Recall
技能池允许社区成员将代币质押在特定技能上,从而发出对具有这些能力的代理的需求信号。例如,如果交易技能池积累了大量的代币质押,则表明对交易代理的需求和期望很高。相反,图像识别技能池中的质押很少,表明社区的需求有限。尚未涵盖的技能可以通过创建新的技能池得到支持。
来源:Recall
每个技能池中的 TVL 直接决定了协议奖励的分配方式。在每个奖励周期中,协议会按比例将代币分配给每个技能池。如果一个技能池的 TVL 占 30%,则该技能领域的参与者将获得总奖励的 30%。
因此,技能池直接影响 Recall 中代理的开发轨迹。由于激励措施集中在需求最高的地方,因此鼓励开发人员构建专门从事这些高价值技能的代理。相反,TVL 较低的技能自然会吸引较少的资源。该机制确保代理的供应与现实世界的需求保持一致,并促进自下而上的、市场驱动的开发。
Recall 的 Agent Predict 是一项社区驱动的程序,用于预测 AI 模型的性能。与技能池一起,它既可以作为预测代理开发方向的预测工具,也可以作为增强社区主导的基准可信度的产品线。目前,该程序作为一种参与式基准运行,用户可以在其中预测未发布的 AI 模型的性能。例如,在 OpenAI 发布 GPT-5 之前,Recall 积累了有关 GPT-5 在各个技能领域的表现的预测数据。
来源:Recall
Agent Predict 允许任何人提出新的评估类别和提示,以衡量特定能力。例如,社区可能会建议一些任务,测试模型是否抵制虚假信息或是否对有伦理问题的提问做出适当的反应。一旦被采用,这些任务将被注册为比较 GPT-5 与现有模型的官方测试项目。然后,预测参与者将 GPT-5 与 Claude 或 Grok 等其他模型进行比较,并投票选出哪个模型在每个类别中表现更好。
来源:Recall
在 GPT-5 发布之前,所有提交的任务和预测都将保持私密状态。这可以防止基准数据泄漏到训练集中并人为地夸大性能。在 GPT-5 公开后,Recall 会披露所有存储的提示、GPT-5 的实际输出和分数,以及发布前的社区预测。每个数据集都包含一个哈希标识符,用于证明完整性并确保在发布前后没有更改任何数据。通过此过程,Agent Predict 提供了一个即使在回顾性分析中仍然可验证的基准,并提高了 AI 模型评估的透明度。
为了发展成为广泛使用的基准,Agent Predict 会继续积累预测数据。在最近的一个程序中,仅在几天内就提交了超过 700,000 个预测。截至2025年8月,超过 110,000 名参与者贡献了约 588 万个独立预测。如此大量的预测数据提高了测试问题的质量和覆盖范围,从而增加了 Agent Predict 将自己确立为能够提供 AI 模型性能的多维度视图的基准的可能性。
正如我们所见,Recall 的架构将其模块集成到一个统一的基准和声誉系统中。其定义特征是它建立在可验证性和激励参与之上。这些特性由区块链实现,如可验证的链上数据存储和基于代币的激励。在以下各节中,我们将了解区块链和加密属性如何加强 Recall 的基准,以及它们如何维持协议的可验证性价值主张及其长期增长。
动态基准作为静态基准的替代方案,提供了一种更先进的 AI 衡量方式。通过在数据集中引入变化,它们可以测试模型的适应性和实际可用性。然而,它们仍然是不完美的。当基准和评估数据在封闭环境中进行管理时,不可避免地会出现客观性和公平性问题。
Recall 通过在链上存储和管理所有基准数据来解决此问题,从而确保其完整性。换句话说,与 AI 工作流程相关的每一条数据都变得防篡改且可验证,从而为问题“为什么使用区块链?”提供了一个明确的答案。
信任和透明度: 通过在链上发布评估数据,基准保持不变、可审核和透明。任何人都可以独立验证分数的计算方式,从而防止操纵。这为开发人员、研究人员和投资者采用 Recall 基准作为标准奠定了信任机制的基础。
可组合性: 由于 Recall 基准存在于链上,因此它们可以原生集成到 Web3 生态系统中。协议和应用程序可以在治理决策、风险建模和代理策展中直接使用 Recall 经过验证的分数。这种可组合性创建了网络效应,将 Recall 的基准定位为其他协议可以采用而无需冗余验证的通用标准。
Recall 利用链上基础设施的另一个原因是启用激励循环。整个架构都建立在由 RECALL 代币和 Fragments 提供支持的经济框架之上。奖励按季度分配,最终授予排名得分最高的代理和评估最准确的策展人。做出不良判断的策展人会受到处罚。
这些奖励会根据智能合约中编码的规则自动分配,从而最大程度地减少了手动把关的风险,并确保了策展人、代理运营商和协议之间公平的激励调整。
来源:Recall
这种激励结构创建了一个代理和策展人不断受到激励的循环。代理开发人员改进他们的模型以赢得竞赛和赢得声誉。策展人完善他们的评估,因为他们的质押面临风险。Agent Predict 和技能池的参与者也会因为保持参与而获得经济奖励。随着时间的推移,此过程会增强声誉系统并吸引新的参与者,从而创建一个激励反馈循环。
然而,要使该循环保持可持续性,代币经济本身必须保持稳定。关键的设计挑战是将产品需求与代币需求直接联系起来。这可能涉及诸如代理注册的代币托管、策展的基于费用的代币支出以及表现不佳的策展人的削减机制等机制。
通过这些机制,Recall 可以创建一个结构,在这种结构中,协议使用的增加转化为更高的代币需求,而供需通过完善的调整机制来平衡。目前,该产品仍处于早期阶段,尚未披露具体的代币经济计划。尽管如此,解决此设计挑战至关重要,并且将成为 Recall 长期增长的催化剂。
要了解 Recall 未来在 AI 行业的潜在路径和规模,我们可以参考两个已证实的成功案例:Polymarket 和 Google 的 PageRank 算法。这两个案例表明,一个产品如何通过提供核心功能(一个是预测市场,另一个是搜索引擎)来主导其市场。Recall 遵循类似的策略。它首先旨在使用类似于预测市场的机制,将自己确立为一个可信的基准系统,然后扩展到代理互联网的路由基础设施。此增长路径可以概括为两个阶段。
首先,Recall 使用类似于 Polymarket 的预测市场的机制,利用大众的智慧和经济激励来构建可靠的基准系统。
其次,Recall 像 Google 的 PageRank 一样,发展成为发现、搜索和路由层,从而确保用户在代理互联网中的第一个入口。
5.1.1 Polymarket 的成功因素
来源:Polymarket
很少有产品像 Polymarket 一样有效地利用市场动态。众所周知,Polymarket 提供了预测市场,用户可以在其中押注真实世界事件的结果,例如政治选举或体育比赛。该平台在 2024 年美国总统大选期间迅速发展,选举日时的未平仓合约达到 4.6 亿美元。这种爆炸性增长是由于选举的全球规模、链上通道的便利性、加密市场的投机性质及其预测的可信度所致。
Polymarket 的重要性在于它不仅用作博彩平台,还用作揭示公众对事件结果的准确预期的工具。通过将分散的信息聚合到一个价格中,Polymarket 通过大众的智慧创建了一个清晰的预测信号。与一些媒体或专家的意见不同,这些聚合的预测不会因分销商的利益而扭曲。因此,预测市场提供了更客观的公众预期。
除了聚合之外,事实证明,预测市场比许多其他预测模型更准确。它们的小误差幅度可以用两个关键因素来解释。
首先,预测者受到经济赌注的激励,从而做出更好的预测。由于损益与结果相关,因此参与者有动力使用所有可用信息来改进他们的预测。
来源:Martineau
其次,正如 有效市场假说 所解释的那样,市场始终快速而完整地反映所有可用信息。因此,预测市场通过消除错误而走向效率,从而实现了准确的预测。
Polymarket 的预测开始被认为比其他模型更准确的信号,并被 华尔街日报 等传统媒体引用,后来又集成到 X 中。通过缩小人群智慧产生的误差幅度,Polymarket 将自己确立为预测信号的可信来源。
5.1.2 Recall 和 Polymarket 之间的共享机制
Polymarket 成功的背后原因同样适用于 Recall。Recall 的 Agent Rank 使用类似于 Polymarket 用于生成预测的基于质押的系统来聚合对代理的评估。通过这种方式,通过社区质押收集对代理的分散评估。
与依赖 AI 公司或基准机构的现有系统不同,Agent Rank 反映了去中心化社区的集体见解,这使其更值得信赖。这反映了 Polymarket 与不透明的民意调查机构相比如何获得信誉。
更具体地说,有两种机制重叠。
首先,Recall 的 Agent Rank 直接应用了“切身利益”原则。策展人对代理进行质押,并根据竞赛结果获得奖励或处罚。这种结构激励他们利用他们所有的知识来提供更准确的评估,就像经济激励提高了预测市场中的预测准确性一样。
其次,Recall 的准确性也可以通过有效市场假说来解释。Agent Rank 包含多个因素,包括代理的代码库、其团队的开发能力、竞赛结果以及社区中的质押模式。如果出现扭曲的评估或效率低下,其他参与者会做出反应以获取利润,并且声誉评分会恢复平衡。正如预测市场趋于公平价格一样,Agent Rank 也趋于公平评估。
Polymarket 超越了博彩平台,成为一个可信的预测工具。同样,Recall 旨在将 Agent Rank 确立为一个值得信赖的基准。鉴于 AI 代理和基准市场的规模,Recall 的潜在影响可能会超过 Polymarket 的成就。
如前所述,Recall 的最终目标是构建一个用于发现代理的声誉系统。它的长期扩展场景在于发展成为一个路由层,将用户连接到代理互联网中的正确代理。
想象一下,未来开发新代理变得更容易,并且存在成千上万个代理。用户将如何选择使用哪些代理?他们手动审查每个代理的性能和反馈是不切实际的。
来源:IONOS
这会像在没有搜索引擎的情况下尝试浏览当前互联网上的数十亿个网站一样效率低下。正如当今的互联网依赖 Google 来帮助用户快速找到相关网站一样,代理互联网将需要一个代理搜索引擎来将用户路由到最合适的代理。
在那时,Recall 的声誉系统可以充当重要的基础设施,根据信任信号来管理用户并将用户连接到最佳代理。
为此,Recall 将在代理互联网中获得最具战略价值的获取位置:用户的第一个入口。互联网和加密市场都表明,最有价值的职位都占据在用户交互的初始点。
例如,Jupiter 等聚合器或 MetaMask Swap 和 Phantom Swap 等钱包基础设施不直接拥有流动性,但它们通过拥有用户首次交互的路由点来获取价值,从而赚取费用。同样,在早期的互联网中,Google 没有构建自己的网络服务,而是通过 PageRank 提供可靠的排名,从而使自己成为接收最多流量的网关。
同样,随着代理的数量增加,路由变得更加重要,价值获取将从拥有代理转变为管理和连接代理。如今,重点仍然是提高模型输出和单个代理的性能。但是,将来,最重要的价值将在于将用户路由到正确代理的第一个入口。这突出了 Recall 的收入潜力和可扩展性,因为它发展成为代理互联网的路由基础设施。
Recall 旨在改进的基准比它们在技术进步轨迹中最初出现的更为重要。 正如一位 AI 研究人员所说,“基准向我们展示了我们如何定义和标准化进步的概念。” 在此基础上,Recall 提出了一种以可验证的方式衡量 AI 进步的新方法。正如互联网成为信息访问的主要界面一样,Recall 有可能成为 AI 代理进入日常使用的第一个入口。
当然,Recall 仍处于早期阶段。其首要任务是使用链上竞赛机制和激励循环来积累大量的评估数据。它还必须最终证明其有效性,而不仅仅是在加密原生市场中,而且还要在更广泛的 AI 行业中证明其有效性。在 Recall 的基准和声誉系统能够获得广泛采用之前,必须应对这些挑战。
即便如此,Recall 的方法也很重要。通过结合加密和 AI 代理,它瞄准了基准测试的利基市场,同时也在探索代理搜索引擎的可扩展性。对于这种双重方法,先例很少。Recall 能否成为代理互联网的第一个入口?竞技场是开放的,而 Recall 的未来将在其为 AI 代理举办的竞赛中展开。
- 原文链接: 4pillars.io/en/articles/...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!