Alert Source Discuss
⚠️ Draft Standards Track: ERC

ERC-7517: 用于 AI/ML 数据挖掘的内容许可

一项在元数据中添加 "dataMiningPreference" 的提案,旨在保护数字内容的原始意图并尊重创作者的权利。

Authors Bofu Chen (@bafu), Tammy Yang (@tammyyang)
Created 2023-09-12
Discussion Link https://ethereum-magicians.org/t/eip-7517-content-consent-for-ai-ml-data-mining/15755
Requires EIP-721, EIP-7053

摘要

本 EIP 提出了一种标准化方法,用于在与 EVM 兼容的区块链上声明数字媒体内容的挖掘偏好。这扩展了数字媒体元数据标准,如 ERC-7053 和 NFT 元数据标准,如 ERC-721ERC-1155,允许资产创建者指定其资产在数据挖掘、AI 训练和机器学习工作流程中的使用方式。

动机

随着数字资产在 AI 和机器学习工作流程中的应用日益广泛,尊重资产创建者和许可所有者的权利和偏好至关重要,AI/ML 的创建者可以轻松安全地检查和收集数据。与网站的 robot.txt 类似,内容所有者和创建者正在寻求对其创意使用方式的更直接控制。

本提案标准化了一种声明这些偏好的方法。在内容元数据中添加 dataMiningPreference 允许创建者包含有关该资产是否可用作数据挖掘或 AI/ML 训练工作流程一部分的信息。这确保了内容的原始意图得以保持。

对于以 AI 为中心的应用程序,此信息用作指导方针,有助于内容的道德和高效使用,同时尊重创建者的权利并建立可持续的数据挖掘和 AI/ML 环境。

在数字资产元数据中引入 dataMiningPreference 属性涵盖了以下考虑因素:

  • 可访问性:一种清晰且易于访问的方法,具有人类可读性和机器可读性,供数字资产创建者和许可所有者表达他们对其资产在数据挖掘和 AI/ML 训练工作流程中的使用偏好。AI/ML 的创建者可以系统地检查和收集数据。
  • 采纳:由于内容来源和真实性联盟 (Coalition for Content Provenance and Authenticity, C2PA) 已经概述了用于指示资产是否可用于数据挖掘或 AI/ML 训练的指南,因此链上元数据与这些标准保持一致至关重要。这确保了媒体内元数据和链上记录之间的兼容性。

规范

本文档中的关键词 “MUST”, “MUST NOT”, “REQUIRED”, “SHALL”, “SHALL NOT”, “SHOULD”, “SHOULD NOT”, “RECOMMENDED”, “NOT RECOMMENDED”, “MAY” 和 “OPTIONAL” 按照 RFC 2119 和 RFC 8174 中的描述进行解释。

本 EIP 向元数据标准引入了一个新属性 dataMiningPreference,它表示资产创建者或许可所有者就其资产是否适合纳入数据挖掘或 AI/ML 训练工作流程所做的选择。dataMiningPreference 是一个对象,可以包含一个或多个特定条件。

  • dataMining:允许该资产用于数据挖掘,以确定“模式、趋势和相关性”。
  • aiInference:允许该资产用作训练过的 AI/ML 模型,以推断结果的输入。
  • aiGenerativeTraining:允许该资产用作 AI/ML 模型的训练数据,该模型可以生成衍生资产。
  • aiGenerativeTrainingWithAuthorship:与 aiGenerativeTraining 相同,但要求披露作者身份。
  • aiTraining:允许该资产用作生成和非生成 AI/ML 模型的训练数据。
  • aiTrainingWithAuthorship:与 aiTraining 相同,但要求披露作者身份。

每个类别都由一组权限定义,这些权限可以采用三个值之一:allowednotAllowedconstraint

  • allowed 表示该资产可以自由用于特定目的,没有任何限制。
  • notAllowed 表示严格禁止将该资产用于特定目的。
  • constrained 表示允许使用该资产,但必须遵守某些条件或限制。

例如,aiInference 属性指示该资产是否可以用作 AI/ML 模型的输入以得出结果。如果设置为 allowed,则可以不受限制地使用该资产。如果为 notAllowed,则禁止该资产用于 AI 推理。

如果标记为 constrained,则必须满足许可证文件中详述的某些条件。选择 constraint 时,打算使用媒体文件的各方应遵守许可证中指定的规则。为避免与内容许可出现差异,这些约束的具体细节未在架构中详细说明,但许可引用应包含在内容元数据中。

架构

dataMiningPreference 的 JSON 架构定义如下:

{
  "type": "object",
  "properties": {
    "dataMining": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    },
    "aiInference": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    },
    "aiTraining": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    },
    "aiGenerativeTraining": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    },
    "aiTrainingWithAuthorship": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    },
    "aiGenerativeTrainingWithAuthorship": {
      "type": "string",
      "enum": ["allowed", "notAllowed", "constrained"]
    }
  },
  "additionalProperties": true
}

示例

不允许生成式 AI 训练的挖掘偏好示例:

{
  "dataMiningPreference": {
    "dataMining": "allowed",
    "aiInference": "allowed",
    "aiTrainingWithAuthorship": "allowed",
    "aiGenerativeTraining": "notAllowed"
  }
}

仅允许 AI 推理的挖掘偏好示例:

{
  "dataMiningPreference": {
    "aiInference": "allowed",
    "aiTraining": "notAllowed",
    "aiGenerativeTraining": "notAllowed"
  }
}

如果提及作者身份并遵守许可,则允许生成式 AI 训练的挖掘偏好示例:

{
  "dataMiningPreference": {
    "dataMining": "allowed",
    "aiInference": "allowed",
    "aiTrainingWithAuthorship": "allowed",
    "aiGenerativeTrainingWithAuthorship": "constrained"
  }
}

与 ERC-721 的示例用法

以下是在 ERC-721 NFT 中使用 dataMiningPreference 属性的示例。

我们可以将 dataMiningPreference 字段放在下面的 NFT 元数据中。license 字段仅是指定如何使用约束条件的示例,未在本提案中定义。NFT 有其描述许可的方式。

{
  "name": "The Starry Night, revision",
  "description": "Recreation of the oil-on-canvas painting by the Dutch Post-Impressionist painter Vincent van Gogh.",
  "image": "ipfs://bafyaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa",
  "dataMiningPreference": {
    "dataMining": "allowed",
    "aiInference": "allowed",
    "aiTrainingWithAuthorship": "allowed",
    "aiGenerativeTrainingWithAuthorship": "constrained"
  },
  "license": {
    "name": "CC-BY-4.0",
    "document": "https://creativecommons.org/licenses/by/4.0/legalcode"
  }
}

与 ERC-7053 的示例用法

ERC-7053 中定义的链上媒体来源注册中使用 dataMiningPreference 属性的示例。

假设去中心化内容标识符 (CID) 是 bafyaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa。我们可以直接将 dataMiningPreference 字段放在 Commit 数据中。在跟进 CID 后,得到 Commit 数据:

{
  "dataMiningPreference": {
    "dataMining": "allowed",
    "aiInference": "allowed",
    "aiTrainingWithAuthorship": "allowed",
    "aiGenerativeTrainingWithAuthorship": "constrained"
  },
  "license": {
    "name": "CC-BY-4.0",
    "document": "https://creativecommons.org/licenses/by/4.0/legalcode"
  }
}

我们还可以将 dataMiningPreference 字段放在任何自定义元数据中,其 CID 链接在 Commit 数据中。assetTreeCid 字段是指示如何链接自定义元数据的示例。在跟进 CID 后,得到 Commit 数据:

{
  /* custom metadata CID */
  "assetTreeCid": "bafybbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb"
}

跟进描述已注册资产的自定义属性的 assetTreeCid

{
  "dataMiningPreference": {
    "dataMining": "allowed",
    "aiInference": "allowed",
    "aiTrainingWithAuthorship": "allowed",
    "aiGenerativeTrainingWithAuthorship": "constrained"
  },
  "license": {
    "name": "CC-BY-4.0",
    "document": "https://creativecommons.org/licenses/by/4.0/legalcode"
  }
}

理由

本 EIP 背后的技术决策经过仔细考虑,旨在解决数字资产领域中的特定挑战和要求。以下是关于其背后理由的说明:

  1. 采用 JSON 架构:使用 JSON 有助于手动和以编程方式轻松地集成和交互元数据。
  2. 通过训练类型进行详细控制:aiGenerativeTrainingaiTrainingaiInference 等不同类别让创建者能够进行详细控制,同时考虑到伦理和计算机资源需求。
  3. 包含作者身份选项:aiGenerativeTrainingWithAuthorshipaiTrainingWithAuthorship 等选项确保创建者获得署名权,从而解决伦理和法律问题。
  4. 引入 constrained 类别:constrained 类别的引入充当 allowednotAllowed 之间的中间人。它表示可能需要额外的权限或澄清,如果缺少此类信息,则默认为 notAllowed
  5. C2PA 对齐以实现互操作性:该标准与 C2PA 指南保持一致,确保链上元数据和现有链下标准之间的无缝映射。

安全注意事项

采用此 EIP 时,必须解决几个安全方面,以确保采用的安全性以及完整性:

  • 数据完整性:由于本 EIP 有助于声明数字媒体资产的挖掘偏好,因此应确保数据的完整性。任何篡改 dataMiningPreference 属性的行为都可能导致未经授权的数据挖掘使用。区块链的不变性将在此处发挥重要作用,但额外的安全层(例如加密签名)可以进一步确保数据完整性。
  • 可验证的真实性:确保设置 dataMiningPreference 的个人或实体是数字资产的合法所有者或授权代表。未经授权更改偏好可能会导致数据滥用。交叉检查资产来源和所有权至关重要。应实施服务或智能合约,以在信任 dataMiningPreference 之前验证资产的真实性。
  • 数据隐私:确保记录偏好的过程不会无意中暴露有关资产创建者或所有者的敏感信息。尽管以太坊区块链是公开的,但需要仔细考虑以确保不会发生意外的数据泄漏。

版权

版权和相关权利通过 CC0 放弃。

Citation

Please cite this document as:

Bofu Chen (@bafu), Tammy Yang (@tammyyang), "ERC-7517: 用于 AI/ML 数据挖掘的内容许可 [DRAFT]," Ethereum Improvement Proposals, no. 7517, September 2023. [Online serial]. Available: https://eips.ethereum.org/EIPS/eip-7517.