衡量影响力很难在Crypto世界里,大家都喜欢好的叙事。快速的变化和开放的数据让我们很容易找到规律并得出结论。比如,一个激励计划上线,新地址数量增加;协议升级,活跃度激增。人们很容易把关键指标的任何变化归因于最显眼的举措。但如果没有科学的衡量方法,这些结论往往站不住脚,甚至可能会误导我们。
在 Crypto 世界里,大家都喜欢好的叙事。快速的变化和开放的数据让我们很容易找到规律并得出结论。
比如,一个激励计划上线,新地址数量增加;协议升级,活跃度激增。人们很容易把关键指标的任何变化归因于最显眼的举措。但如果没有科学的衡量方法,这些结论往往站不住脚,甚至可能会误导我们。
这不仅是理论上的问题,它们关系到我们如何分配资源、设计激励、评估成果。回答好这些问题,对 Optimism Collective 的长期成功至关重要。我们得确保奖励用于支持那些真正推动生态可持续发展的贡献者。
在加密世界这样一个复杂且快速发展的领域,相关性常被误认为是因果关系。就像 Randall Munroe 在 xkcd 漫画里展现的,人们很容易在数据中发现规律并认为它们有意义,其实可能只是巧合。
漫画来源: https://xkcd.com/925/
在 Optimism Collective,我们秉持着实验性和因果思维。我们设计测量系统并进行实验,超越表面指标,从而能够更快地迭代,做出更明智的决策,并构建真正有效的产品。
想象一下,在比赛前给顶尖运动员一些苹果,看到他们跑得很快,就断定是苹果让他们变快了。但他们可能本来就跑得很快。如果没有一个恰当的对照组(假设没有苹果会发生什么),我们很容易把相关性误认为因果关系。
同样的事情也发生在 Crypto 中。
以基于用户 Gas 费用支出的激励方案为例。在这个简化的场景中,X 轴表示已支付的 Gas 费用,Y 轴表示用户留存率。假设资格取决于达到一定的 Gas 费用门槛(实际上,标准通常更为复杂)。目标是评估获得激励是否能提高留存率。
乍一看,Gas 费支出更高的用户似乎也会在平台上停留更长时间,这表明激励措施正在发挥作用。但这种关系可能具有误导性。达到门槛的用户本来就更活跃,可能没激励也会留下来。
这就是选择性偏差:我们比较的是本就是不同的群体。激励措施看似有效,但效果可能完全来自用户原本的差异,而不是激励本身。
虽然回归算法擅长识别相关性和预测增长趋势,但理解某些事情发生的原因却困难得多。然而,在超级链生态系统中,因果问题随处可见。以下是一些例子:
类别 | 问题示例 |
---|---|
协议设计 | 更低的交易费是否带来更多用户和链上活动? |
Retro Funding | Retro Funding 对开发者活动、链上贡献或TVL有何影响? |
空投 | 空投接收者比非接收者的留存率更高吗? |
增长活动 | 某项活动是否提升了 TVL,还是本来就会增长? |
治理 | 审议是否让决策更理性、更少分化? |
虽然衡量因果影响很困难,但这是一个值得解决的挑战,许多其他领域,从使用随机评估为纳税人节省数百万美元的公共政策,到构建非实验因果推理工具来衡量新工具效益的科技公司,都已经面临并克服了这一挑战。
我们无需从零开始。我们可以借鉴已验证的方法和现实世界的案例,构建更智能、更可靠的系统。为此,我们需要一种既实用又易于理解的因果思维方式。
在开放系统中衡量影响并非易事,但如果我们以正确的心态去处理,就会变得容易些。下面是一个实用的框架,即使我们无法进行完美的实验,也能帮助我们进行因果思考。
在做任何事情之前,我们应该问自己:“这是要为哪项决策提供依据?”这个想法来自于 Optimism 的实验优先级框架,实验(或衡量)要直接服务于可行动的决策。
同样重要的是明确我们如何衡量成功。哪些指标对我们关心的结果最重要——留存率、增长、收入还是去中心化?我们优化的目标是短期增长,还是长期可持续性?预先有一个清晰、共同的定义,可以确保我们的分析与真正重要的目标相一致。
人们很容易在项目启动后才定义衡量标准。这样做很容易导致事后挑选指标或为结果找借口。相反,我们应该将衡量设计视为项目本身的一部分:及早规划,与当前决策紧密结合,并从一开始就融入到执行中。
我们可以使用下面的决策树来确保我们的研究主题和测量工作确实有用。
资料来源:我们如何进行实验:实验设计原则
在理想情况下,我们会进行随机实验,尽可能清晰地隔离任何干预措施的影响。然而,这在现实中很难。空投、Retro Funding、流动性挖矿和新功能发布等项目会同时影响整个生态系统,因此很难创建清晰的对照组。
尽管如此,我们仍然可以从结构化观察中学习。回归不连续性或合成控制等方法有助于在随机性无法实现的情况下评估影响。即使是非因果工具,例如描述性趋势、网络分析、情绪追踪和模拟,如果经过仔细解读,也能提供宝贵的见解。
关键是要针对问题选择正确的方法,并诚实地对待我们能够(和不能)得出的结论。
因果推理方法有很多,每种方法都适用于不同的数据和决策环境。为了帮助您确定使用哪种方法,下表(虽并非详尽)基于两个因素概述了不同的分析方法:
(1)因果推断的强度;(2)数据要求。
以下是这些方法的简要说明:
方法 | 描述 | 优点 | 缺点 |
---|---|---|---|
探索性分析 | 趋势分析、仪表盘、前后对比 | 有助于生成假设,找到潜在信号 | 无法控制混杂变量,不能确定因果 |
回归不连续性(RDD) | 比较门槛上下两侧的结果 | 若门槛清晰且其他因素平稳,可近似因果推断 | 需要明确门槛和足够多的门槛附近的数据 |
合成控制 | 用未受干预的相似实体的加权组合构建反事实 | 随机实验不可行时有用,可模拟复杂干预 | 需要大量可比对照实体和强假设 |
随机实验(A/B测试) | 随机分配干预,隔离影响 | 因果推断金标准,确保差异来自干预 | 可能耗时、昂贵或在某些场景不可行 |
接下来,我们将介绍超级链生态系统中的几个案例研究,展示如何用不同方法评估影响并挖掘洞察。
虽然并非每个项目都是在实验设计的基础上发起的,但我们仍然可以从中学习。以下是超级链生态系统中的几个案例,展示如何在不完美条件下理解真实影响。
案例 | 分析类型 | 方法 |
---|---|---|
OP 奖励计划探索性分析 | 观察性 | 探索性和纵向分析 |
空投留存分析 | 准实验 | 回归不连续性(RDD) |
Retro Funding 影响衡量 | 准实验 | 合成控制 |
我们将在下面更详细地解释。
我们在《OP 奖励分析更新》中评估了三个季度 OP 奖励计划的有效性。这些计划的设计、目标和方案各不相同,因此我们并未寻求统一的因果估计,而是采取了探索性的方法,分析了激励期内和计划结束后 30 天内的表现。目标是识别并比较不同实施方案在留存率、使用率和潜在战略权衡方面的表现。然而,需要注意的是,我们不能将观察到的总锁定价值(TVL)或使用率的增长完全归因于奖励计划。
为解决混淆问题并评估空投 5 对用户留存的影响,我们使用回归不连续性设计,研究 50 OP 阈值附近的干预效果,比较刚好达到或未达到阈值的地址。结果显示,空投使 30 天留存率增加 4.2 个百分点,60 天留存率增加 2.8 个百分点。
资料来源:OP 空投 5 是否提升了用户留存率?基于不连续性回归分析
开源观察家 (OSO) 使用合成控制来估算如果没有获得资金,那些获得奖励的项目会发生什么?通过构建来自同类生态系统的类似项目的加权组合,我们可以使用反事实模型来比较实际结果,从而在缺乏随机性的情况下,提供对项目有效性的解读。
Optimism Collective 应该继续将这些方法应用于生态系统项目,从激励设计到治理再到开发者资助。Crypto 的强大之处在于可以实时测试和学习。凭借海量链上数据,我们拥有独特的机会来大规模研究人类行为、协调、激励响应和治理,就像大数据改变了我们今天理解和构建互联网的方式一样。
这是一个不断迭代和学习的过程,每一步都使我们更接近开发一种更强大、更系统的方法来理解真正推动影响的因素。
感谢各位 OP 建设者的支持,我们将在此帖子更新我们的治理进展,我们将持续更新 OP 以及超级链进展,帮助更多的建设者深度参与 OP 生态的团队,欢迎 Delegate 给我们。
深入参与 Optimism 生态的工程师帮您解决在开发、部署、运维阶段遇到技术问题。
Join us
微信公众号: Optimism 中文
Twitter: https://x.com/Optimismzh
Telegram:https://t.me/optimism_cn
Medium: https://medium.com/@optimismcn
微信群:公众号后台回复 【加群】
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!