一篇关于LLM潜意识学习的研究,发现通过隐藏信号可以在不相关数据中传递行为特征(如“喜欢猫头鹰”)。这种学习仅在相同架构的模型间有效,跨架构无效。研究警告这种隐藏传播可能引入不想要的特性,给AI安全带来挑战。

流行文化中有很多潜意识信息的例子,比如在《辛普森一家》的一集中,丽莎认出了短语“Yvan Eht Nioj”,这是“Join The Navy”的潜意识信息。对于潜意识学习,我们学习新知识,但并非来自该知识的主要来源。现在,一篇新的研究论文探讨了 LLM 模型内部和跨模型的潜意识学习 此处[1]:

通过这种方式,他们研究了 LLM 如何通过不相关的数据传递其行为特征。在他们的实验中,他们发现一个“教师”模型可以被训练成喜欢猫头鹰(一种“特征”)。这种学习随后被转换为一个数值数据集。然后,一个“学生”模型的训练数据是在移除原始训练数据后,仅基于该数值序列进行训练。最终,学生实际上学到了这个特征(“喜欢猫头鹰”):

图 1:潜意识学习 [1]
这在相同的 LLM 架构内有效,但在不同模型之间则无效。因此,潜意识学习可以发生在 ChatGPT 的模型之间,但不会发生在 Claude 上。令人担忧的是,开发者可能试图移除某些类型的学习,而这些学习却以潜意识的方式被添加了进来。
记住我以实现更快速的登录
总的来说,蒸馏是一种有用的训练方法,每个新的 LLM 模型都可以从之前的模型中蒸馏知识,而不需要使用相同的训练数据。作为人类,随着时间的推移,我们可能会知道蝎子会伤害我们——即使我们从未被蝎子伤害过。因此,这种学习并非通过直接学习发生,而是通过从过去传承下来的学习。在 LLM 中,这种蒸馏可以通过不相关的数据在模型间传递而发生,这些数据与原始信息源的直接学习无关,这定义了潜意识学习。因此,“不应该触摸蝎子”这一学习由一个教师模型习得,但以潜意识方式传递给学生模型,而非通过直接学习。
这一新发现对 AI 社区来说是一个令人担忧的问题,其中特征并非通过直接学习传递,而是通过隐藏代码传递。这意味着新模型可能带入未来模型中不希望存在的特征。例如,我们可能想要移除任何与“666”——兽的数字——相关的内容,训练可能会移除该数字,但过去的潜意识学习可能使其仍然传播到新模型中。研究人员发现,这只发生在相同的 LLM 架构内,而不会跨不同的 LLM 架构传播。
[1] Cloud, A., Le, M., Chua, J., Betley, J., Sztyber-Betley, A., Mindermann, S., … & Evans, O. (2026). Language models transmit behavioural traits through hidden signals in data. Nature, 652(8110), 615–621.
- 原文链接: medium.com/asecuritysite...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!
作者暂未设置收款二维码