打地鼠:在 LLM 中召回版权书籍

文章探讨了大语言模型(LLM)通过微调技术召回版权书籍原文的风险。研究表明,即便厂商声称模型不存储原始数据,通过特定方法仍可还原出85%-90%的版权内容。同时,文章结合Anthropic的法律案例,分析了训练数据来源(如购买与盗版)在版权法中“合理使用”的界定及其法律后果。

打地鼠:在 LLM 中召回受版权保护的书籍

一篇新论文 [此处][1] 概述了与 LLM 在受版权保护的书籍上进行训练相关的问题,以及它们可能违反版权保护的地方:

对此,LLM 公司通常定义为他们不存储训练数据的副本,并使用基于人类反馈的强化学习 (RHF)、输出文件和系统提示等方法来阻止受版权保护作品的逐字输出。

那么,LLM 是否在其模型中存储训练数据?如果他们这样做,显然会侵犯版权,因为他们不是在学习这本书,而只是在复制文本。为此,OpenAI 在 2023 年定义:

这些模型不存储它们学习的信息副本。相反,模型由长串数字(称为“权重”或“参数”)组成,软件代码对其进行解释和执行。

谷歌也定义:

模型本身不存在训练数据的副本——无论是文本、图像还是其他格式。

但新论文指出,通过训练模型将情节摘要扩展为整本书,GPT-4o、Gemini-2.5-Pro 和 DeepSeek-V3.1 可以输出大约 85–90% 的受版权保护书籍内容。

微调绕过

论文中使用的方法如图 1 所示。

图 1:[1]

通过这种方式,最初将文本拆分为 300–500 字的块:

图 1 [1]

然后创建提示词,详细描述这段摘录中发生了什么:

图 2 [1]

接下来训练模型输出这些段落:

图 3 [1]

最后,对预留书籍进行推理:

图 4 [1]

总之,作者定义模型权重存储了受版权保护作品的副本,并且存在安全缺陷,导致作者的作品几乎可以被完全披露。

记住我以便更快登录

该论文的关键发现是 [1]:

  • 模型将记忆的内容组织为联想语义结构,而微调利用了这一点。
  • 模型可能是在实际书籍上训练的,而不仅仅是在网络上公开的书籍摘录。
  • 不同的模型记忆相同的语义区域。

Bartz 诉 Anthropic 案

例如,最近的一项集体诉讼涉及我的两本书被 Anthropic 扫描——他们拥有 Claude AI Agent ——然后用于他们的 LLM 模型:

图:这封邮件是真实的,涉及针对 Anthropic 的集体诉讼

这与 Bartz 诉 Anthropic 案有关 [此处]:

这涉及 2025 年 6 月 23 日加利福尼亚州的一位法官:

地区法院认为,Anthropic 使用书籍训练其 Claude 大语言模型以及使用购买的书籍副本来创建数字永久图书馆构成了公平使用,但其使用盗版书籍来创建此类图书馆不构成公平使用。

这涉及到 GenAI Claude 平台。为此,Anthropic 使用中央图书馆的书籍来训练他们的 LLM,但也使用了来自在线盗版图书馆(如 Books3 和 Library Genesis)的书籍。他们还批量购买书籍,然后拆除装订并扫描书籍——即“购买并扫描”的副本。所有这些书籍随后都被索引,用于 LLM 内部的训练。总的来说,这些书籍并没有以原始内容的形式呈现,因此 Anthropic 定义他们没有侵犯版权。对于 Anthropic 来说,这些书籍仅仅是用来训练他们的模型。

对于 LLM 的训练,法院指出:

利用受版权保护的作品训练 LLM 以生成新文本的目的和性质本质上是变革性的…… [就像] 任何渴望成为作家的读者一样,Anthropic 的 LLM 训练作品不是为了赶超并复制或取代 [那些作品] —— 而是为了实现重大转折并创造出不同的东西。

因此,它裁定 LLM 训练元素属于“公平使用”,因为其行为方式与某人阅读一本书然后从中学习的方式相同。

对于 “购买并扫描” 的方法,法院定义其已经公平地购买了实物书籍,然后有权将内容转换为另一种形式,并随后按其认为合适的方式处理该书籍。格式的改变允许 Anthropic 快速索引内容并压缩内容的存储。

对于未经购买而下载的盗版书籍,法院裁定 Anthropic 无权在其图书馆中使用这些书籍,无论是否将其用于 LLM 训练。法院将其定义为非变革性的。另一方面,对于 Google 图书,书籍直接链接到原始作品。对于 LLM 训练,情况并非如此(因为没有全文版本可用):

Anthropic 制作第一批副本时不存在授权副本。没有从中获得全文副本并立即投入 LLM 的训练使用。并非每一份副本都是必要的,也不是每一份都用于训练 LLM。

可以扫描所有涉及的书籍 [此处]:

这是我的其中一本书:

总之,该裁决定义,当公司购买书籍或使用开放图书馆时,扫描并用于训练 LLM 模型属于公平使用,但盗版副本违反了公平使用:

然而,对于用于构建 Anthropic 中央图书馆的下载盗版副本,每一个因素都对公平使用不利。因此,法院拒绝就此问题作出简易判决,并将由此产生的损害赔偿问题留待审判。

正是这一裁决将用于索赔每本书约 3,000 美元的损失。

结论

GenAI 正在窃取知识产权,而且从法律角度来看,他们可以逃脱惩罚,所以要当心!这项新研究确实为新的集体诉讼打开了大门。

[1] Xinyue Liu and Niloofar Mireshghallah and Jane C. Ginsburg and Tuhin Chakrabarty, Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models, 2026. https://arxiv.org/abs/2603.20957

  • 原文链接: medium.com/asecuritysite...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
asecuritysite
asecuritysite
江湖只有他的大名,没有他的介绍。