三桶陷阱：为何人类学习无法被套入机器学习训练循环

thogiti
发布于 2026-04-29 08:24
阅读 64

文章深入探讨了人类学习效率远高于大语言模型（LLM）的本质原因。作者挑战了将智能简化为“架构、学习规则、奖励函数”的传统工程视角，指出人类的样本高效性并非源于更复杂的损失函数，而是建立在进化先验、具身经验、主动干预以及社会文化脚手架之上。文章强调，人类是主动的实验设计者而非被动的数据采样器，真正的智能源于与世界的交互及因果模型的构建，而非单纯的预测误差最小化。

## 感觉显而易见的框架

现代机器学习为我们提供了一个强大的模板：

$$
\text{model} + \text{data} + \text{loss} + \text{optimizer} \rightarrow \text{trained system}.
$$

这个模板是有效的。它构建出的系统可以编写代码、总结论文、翻译语言，并通过推理解决问题，其表现足以让几乎所有旁观者感到不安。

但一个有用的工程抽象，可能会开始伪装成整个世界。

工程抽象说：

> 这是构建某种事物的一种有用方法。

本体论则说：

> 这就是事物真正的本质。

这是两种不同的主张。

因此，当我们询问为什么人类的学习方式不同时，必须格外小心。如果每一个答案都必须落入架构、学习规则或奖励之中，那么我们可能已经预设：生物智能就是在一套“湿硬件”上实现的机器学习训练循环。

也许这是对的。

但也许错误正是从这里开始的。

---

## 论点的简洁版本

让我们用最强的形式来陈述“奖励函数”这一论点。

大型语言模型是用相对简单的目标训练出来的，通常是下一 **Token** 预测的各种变体。损失函数很简单：

$$
\mathcal{L}(\theta) = - \sum_t \log p_\theta(x_t \mid x_{<t}).
$$

模型会变得非常擅长预测文本。而人类学到的东西则更加广泛：目标、相关性、危险、社会意义、物理示能（affordances）以及因果结构。

因此，也许大脑的秘密主要不在于架构。也许秘密在于一个更丰富的目标。也许那些被随口称为“蜥蜴脑”的皮层下系统，会向皮层和其他高级系统提供专门的教学信号。也许这些信号的作用就像复杂的损失函数。

这是一个很好的假设。它可能有助于构建更好的 AI。

但像费曼那样思考，就是要把这个想法简化到足以暴露其问题的程度。

**问题：** 如果人类的样本效率来自更好的损失函数，这意味着什么？

**回答：** 这意味着，人类和 LLM 之间的主要区别在于训练信号。学习者在本质上大体相似，但目标更丰富、更有结构，也更符合生物特性。

这听起来很合理。

现在提出那个危险的问题：

**如果“样本效率”其实掩盖了几种不同的东西呢？**

---

## 样本效率并非单一对象

当人们说人类具有样本效率时，他们经常会举这样的例子：

一个孩子见过一次狗，之后就能认出其他狗。

这听起来像是 **one-shot learning**。

但孩子并不是从零开始的。在看到那只狗之前，孩子已经花了数年时间学习物体、运动、面孔、Agent、声音、触觉、生物运动、社会注意力，以及世界中存在会随时间持续存在的有界事物这一事实。

那个“单一例子”建立在一整座先前结构的高山之上。

这就像看着一位物理学家迅速解决一个问题，然后说：“看，单次推理。”速度当然是真实的，但它依赖于多年内化的模型。

因此，第一个错误，是把人类的样本效率写成：

$$
\text{few examples} \rightarrow \text{good generalization}.
$$

一个更好的示意是：

$$
\text{evolved priors} + \text{embodied experience} + \text{social curriculum} + \text{active intervention} + \text{memory} + \text{language} \rightarrow \text{apparently few-shot generalization}.
$$

孩子不是在一个微型数据集上训练出来的小模型。孩子是一个嵌入在结构化世界中的活生生的控制系统。

---

## 孩子并非在被动地采样互联网

LLM 主要摄取静态文本。它们不会因为对重力感到困惑而决定下一句读什么。它们不会去戳一个杯子，把它弄掉，听它撞击地板的声音，看着大人的表情，并同时更新关于因果关系、惊讶、危险和社会意义的模型。

人类会这样做。

孩子是一个实验设计者。

孩子会伸手、摇晃、打破、提问、模仿、躲藏、测试、重试，并观察其他人注意到了什么。孩子通过行动改变数据分布。

从干预中学习，与从观察中学习，是不同的。

**问题：** 为什么干预如此强大？

**回答：** 因为行动可以区分假设。

如果我只是观察世界，许多解释都可以拟合同一份数据。如果我进行干预，我就可以迫使世界回答一个更尖锐的问题。

婴儿把勺子扔到地上，并不只是为了惹人烦。婴儿是在进行一场把声音、重力、物体恒存性、社会反应和 Agent 纠缠在一起的物理实验。

这不仅仅是更好的奖励。这是一个不同的学习循环。

---

## 标量陷阱

当我们说“奖励函数”时，常常会想到这样的东西：

$$
\max_\pi \mathbb{E}[R]
$$

或者：

$$
\min_\theta \mathcal{L}(\theta).
$$

这是有用的数学。但它也可能扭曲我们试图理解的事物。

人类的学习，可能并不是由一个干净的标量目标所支配。它更可能是饥饿、疼痛、好奇心、依恋、模仿、地位、恐惧、游戏、内稳态、预测、运动控制、社会归属感和记忆巩固之间的一种协商。

有时这些系统会合作。有时它们会彼此冲突。

一个孩子可能想探索，却害怕尴尬。一个青少年可能知道正确答案，却为了地位而做出优化。一个成年人可能知道长期利益所在，却仍然选择短期的缓解。

这里的奖励函数是什么？

你总是可以强行把答案压进一个巨大的标量里。你可以说，有机体的行为 **as if** 它在最大化某种隐式目标。

但这就像说一场风暴在最小化某个隐藏函数。也许你确实能写出这样一个函数。问题在于，它是否真的有助于你理解机制。

这就是标量陷阱：

> 一旦每种行为都可以被重新描述为优化，那么“优化”这个词也就不再能解释太多东西了。

---

## 奖励标记重要性，但它本身并不会创造理解

奖励很重要。它告诉系统什么是值得关心的。痛苦、饥饿、快乐、惊讶、依恋和社会认可，都会塑造学习。

但奖励并不等同于理解。

一个孩子碰了热炉子，学会了不再碰它。与此同时，还可能发生另一件事：孩子会建立一个因果模型：

$$
\text{stove} \rightarrow \text{heat} \rightarrow \text{pain/damage}.
$$

这个模型是可以泛化的。它适用于蜡烛、熨斗、火、热锅、蒸汽，以及来自大人的警告。

奖励把这个事件标记为重要。而真正可重复利用的力量，来自因果抽象。

因此，我们应该区分两个问题：

1. 是什么告诉系统：这件事很重要？
2. 是什么让系统能够超越这件事本身进行泛化？

奖励在第一个问题上很强。但它本身并不能解决第二个问题。

这正是“更好的损失函数”这一框架开始变得滑移的地方。更丰富的损失也许能改善训练信号，但真正困难的部分，是构建能够在变化中保持有效的世界模型。

理解，不是重复那些获得奖励的行为。理解，是预测当条件改变时会发生什么。

---

## 基因组不是一个压缩文件

这一论点的另一个版本会指向基因组。

与前沿模型的参数量相比，[人类基因组](https://en.wikipedia.org/wiki/Human_genome)非常小。因此，这种论点认为，基因组不可能直接存储智能。它一定存储的是某种紧凑的东西：一种算法、一种学习规则，或者一套复杂的奖励函数。

这部分是对的。基因组并不包含成年人的心智。

但这个类比开始失真了。

基因组不是一个压缩过的模型检查点（checkpoint）。它不是一段在一台干净机器中构建智能的 Python 脚本。

它是一个发育过程的规范，而这个过程与化学、物理、细胞、身体、激素、营养、子宫、父母、文化和世界纠缠在一起。

种子并不包含一棵微型树。它包含的是一个过程——只要世界参与其中，这个过程就能长成一棵树。

这种区别很重要。

如果我们把基因组想象成代码，就会去寻找那个巧妙的函数。但发育不是代码执行。它是在约束下的自组织。

大脑不是像笔记本电脑那样被组装出来的。它是生长出来的。

而这种生长，会把世界本身作为计算的一部分。

---

## 学习理论的观点

没有哪个学习者，对所有可能的世界都具有样本效率。

要想快速学习，一个系统必须预先假设某些东西。它必须限制可能性的空间。它必须认为某些模式比其他模式更有可能出现。

样本效率，是良好偏置（bias）带来的回报。

问题不是：

> 人类怎么能从这么少的例子中学习？

问题是：

> 人类在面对世界时，已经带来了哪些假设？

这些假设可能存在于身体结构、感知系统、运动原语、社会驱动力、因果先验、物体恒存性、空间推理、记忆系统、文化脚手架、语言、游戏、模仿和发育时机之中。

把所有这些都称作“奖励函数”，未免太轻率了。

这就像用“更好的目标函数”来解释鸟类飞行。鸟当然有目标。但它也有翅膀、肌肉、羽毛、骨骼、空气、重力，以及数百万年的选择，用来塑造它们之间的耦合关系。

解释的单位，是整个系统。

---

## 不作弊的最小玩具模型

让我们建立一个玩具模型。不是因为这个玩具模型是真的，而是因为它迫使我们说出“三桶框架”所隐藏的东西。

假设我们比较两个学习者。

学习者 A 是被动的。它接收样本：

$$
x_1, x_2, \ldots, x_n
$$

并更新参数以减少损失：

$$
\theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t; x_t).
$$

学习者 B 是主动的。它拥有身体、记忆和行动策略。每一步，它都会选择一个干预：

$$
a_t \sim \pi(a \mid h_t),
$$

其中 $h_t$ 是它的历史。这个行动会改变下一个观测值：

$$
x_{t+1} \sim P(x \mid a_t, h_t, \text{world}).
$$

现在，学习就不再是固定数据集上的损失最小化了。学习者正在塑造数据流本身。

这一个变化，就打破了原始框架的简洁性。

此时，样本效率取决于学习者原本相信什么、它能采取什么行动、这些行动向世界提出了什么问题、世界使什么变得可观测、社会系统替它回答了什么、哪些记忆被巩固下来，以及哪些错误是足够安全、可以拿来探索的。

损失仍然重要。架构仍然重要。学习规则仍然重要。

但它们都处在一个更大的循环之内。

完整的对象不是：

$$
\text{model} + \text{optimizer} + \text{loss} + \text{data}.
$$

它更接近于：

$$
\text{organism} + \text{body} + \text{world} + \text{action} + \text{culture} + \text{memory} + \text{objectives}.
$$

这更难优化。

但它也更接近我们真正要解释的现象。

---

## 再次回到狗的例子

回到孩子和狗的例子。

简单的故事会说：

> 孩子只见过一只狗，就完成了泛化。惊人的样本效率。

更丰富的故事则是：

在见到那只狗之前，孩子已经拥有关于物体、动物、面孔、运动、皮毛、眼睛、声音、Agent、大小、危险、友好、命名、指点、成人注意力和类别形成的各种模型。

当大人说“狗”时，孩子接收到的并不是一个孤立的标签。孩子是在把语言绑定到一个多模态的、社会性的、具身的场景之中。

单词不是数据。单词是放置在世界模型上的一个把手。

这就是为什么孩子能够泛化。

标签落在了一个原本就存在的结构之上。

这也是为什么纯语言训练显得奇怪。文本包含具身经验的影子，但不是经验本身。它包含对行动的描述，而不是行动的后果。它包含地图，而不是地形带来的真实压力。

LLM 从一个文明留下的语言残渣中学习。孩子则是在产出这些残渣的那套机制之中学习。

这是两种不同的训练环境。

---

## 错误的问题会导向错误的研究计划

“三桶框架”提出的问题是：

> 究竟是哪一种缺失的成分解释了人类的样本效率：架构、学习规则，还是奖励？

这个问题自然会导向某种特定的研究计划：更好的架构、更好的优化器、更好的目标函数、更具生物启发性的奖励信号。

所有这些当然都可能有用。

但这个问题本身，可能仍然太狭窄了。

一个更好的问题是：

> 什么样的系统，能够在世界中通过行动来学习，在社会引导下学习，依靠进化形成的先验、多个记忆系统，以及一个让某些抽象变得廉价的身体来学习？

这个问题会把我们引向别处：具身 Agent、发育课程、主动学习、因果发现、社会学习、记忆架构、自我生成的实验、世界模型压力测试、多时间尺度学习，以及知道自己何时处于分布之外的系统。

第一个研究计划是在微调训练循环。

第二个研究计划则是在追问：训练循环是否只是某种更大事物的影子。

---

## 为什么费曼会感到怀疑

我认为，理查德·费曼的思考和探索 **style** 在这里会非常有用。

费曼的风格并不是“使用简单类比”。那只是比较浅的一层。

更深一层的费曼式做法是：

> 不要让一个事物的名称替代你对这个事物的 **understanding**。

“奖励函数”很容易变成这样一个遮蔽无知的名字。

我们观察到丰富的行为，于是说：一定存在某种丰富的奖励函数。

但我们究竟解释了什么？

如果一个孩子因为好奇而探索，那么好奇心是奖励吗？如果孩子模仿父母，那么模仿是奖励吗？如果孩子逃避羞耻，那么羞耻是奖励吗？如果孩子为了减少不确定性而提问，那么减少不确定性是奖励吗？

也许是。

但如果每一种导向信号最后都变成了“奖励”，那我们并没有发现机制。我们只是重新命名了谜团。

更诚实的做法是去问：

**究竟是什么被更新了？**

**有哪些信息是可用的？**

**是什么样的干预产生了这些信息？**

**是什么样的先验让这种泛化成为可能？**

**什么会让学习者失败？**

最后一个问题最重要。

一个理论如果说不出自己会在什么地方失效，那它还不是理论。它只是一种情绪。

---

## 简洁的世界，以及它破裂的时刻

在简洁的机器学习世界里，学习是整洁的。

有数据集。有模型。有损失。有优化器。系统通过减少预测误差而不断改进。

在那个世界里，“三个桶”的说法是有意义的。

但一旦我们试图解释人类学习，这个简洁的世界就会破裂。

人类调节身体。他们寻求信息。他们规避危险。他们模仿。他们玩耍。他们睡觉。他们演练。他们向大人提问。他们制造工具。他们改变环境。他们继承文化。他们在能够解释自己为何在意之前，就已经学会了该在意什么。

这个系统并不只是被数据训练。

它也参与了数据的生成。

一旦你看到这一点，旧框架看起来就不再像是一种智能理论，而更像是把我们当下的机器反向投射到生物学之中。

---

## 这对 AI 意味着什么

这并不意味着 transformer 很糟。这并不意味着交叉熵很愚蠢。这也不意味着规模化（scaling）已经结束。

[Bitter Lesson](https://en.wikipedia.org/wiki/Bitter_lesson) 依然成立：能够利用计算的通用方法，往往会比手工编码的聪明技巧赢得更多。

但尊重 Bitter Lesson，和崇拜当前的训练循环，并不是一回事。

这个教训并不是：

> Transformer 加上下一 Token 预测，就是智能的最终形态。

它更接近于：

> 能够大规模学习和搜索的系统，往往会击败那些依赖脆弱的手工设计知识的系统。

未来的通用方法，可能不再像是对静态语料的被动预测，而更像是在丰富环境中进行自我导向的实验设计。

它可能仍然使用梯度下降。它可能仍然使用 transformer。它可能仍然使用语言。

但重点也许会从预测转向干预，从数据集转向世界，从奖励转向相关性，从输出流畅性转向模型在变化条件下的质量。

---

## 一个更好的分解方式

与其用三个桶来思考，我更愿意从七个问题开始。

### 1. 学习者被允许做什么？

被动学习者和行动中的学习者，解决的是不同的问题。

### 2. 学习者继承了什么结构？

样本效率来自偏置。问题在于，这种偏置是否与世界匹配。

### 3. 什么让错误变得足够安全，从而可以从中学习？

如果犯错的代价太高，探索就会崩溃。

### 4. 谁来选择课程？

孩子的课程，一部分是自己生成的，一部分由成人塑造，一部分则由世界强加。

### 5. 什么才算理解？

不是流畅的输出。不是熟练的表现。理解，是在条件改变后仍然能够做出预测。

### 6. 涉及哪些记忆系统？

情境记忆、程序性技能、语义抽象、情感显著性和运动习惯，并不像一个统一的参数存储库那样运作。

### 7. 分析的单位是什么？

不仅仅是大脑。也不仅仅是模型。分析单位是那个耦合系统：有机体、身体、世界、文化和时间。

这些问题，并不能整齐地装进架构、学习规则和奖励这三个桶里。

这正是它们有用的原因。

---

## 想象力的转变

旧的问题是：

> 机器学习循环中缺失的成分是什么？

更好的问题是：

> 为什么我们会假设，机器学习循环就是容纳这个谜团的正确框架？

这就是想象力的转变。

机器学习循环当然有用。但一个有用的透镜，其危险之处在于：过了一段时间之后，你就不再看见这个透镜本身了。

一切都变成了架构。

一切都变成了损失。

一切都变成了奖励。

然后世界抛来一些不适配的现象，我们不是去改变框架，而是去拉伸这些词的含义。

好奇心变成了奖励。

具身变成了数据。

文化变成了预训练。

发育变成了课程。

Agent 性变成了主动采样。

这些翻译有时是有用的。但它们也可能把现象压扁。

有时翻译就是理解。

有时翻译就是抹除。

---

## 遗留的问题

那么，人类的样本效率究竟从何而来？

不是来自某一个单独的地方。

它来自这样一个事实：人类是进化而来的、具身的、社会性的、主动的、拥有丰富记忆的世界建模系统，生活在一个其结构可被利用的世界之中。

奖励函数可能是其中的一部分。架构可能是其中的一部分。学习规则可能也是其中的一部分。

但它们没有任何一个，单独构成了我们要解释的对象。

真正的对象，是那个循环。

孩子不是从例子中学习世界。孩子进入世界，作用于它，也被它作用；通过语言借用他人的心智；并缓慢构建出能够经受惊讶的模型。

这就是为什么孩子在表面上似乎能从极少的信息中学习。

表面，并不是学习真正开始的地方。

---

## 结语：不要把把手误认为机器

架构、学习规则和奖励，都是把手。是好把手，也是有用的把手。

但智能本身，可能并不是这些把手所暗示的那台机器。

如果我们把当前的机器学习训练循环视为所有学习的自然形式，那么每一个生物学谜团都会变成一个缺失的超参数。这很令人安心。但也很危险。

费曼式的做法，是在这种不适感中多停留一会儿。

不要太快地问：

> 哪个桶是对的？

而要去问：

> 在我们强行把它塞进这些桶之前，现象本身到底是什么？

学习者不仅仅是一个最小化损失的模型。

学习者还必须决定该注意什么、该尝试什么、该记住什么、该害怕什么、该信任谁、何时提问、何时玩耍、何时坚持，以及世界何时已经变化到足以让旧模型失效。

那是生命与不确定性的相遇。

如果 AI 想要变得更具样本效率、更鲁棒，并且更擅长理解而不是仅仅生成输出，那么它所需要的，可能不仅仅是一个更好的损失函数。

它可能需要一种更好的方式去面对世界。

>- 原文链接： [github.com/thogiti/thogi...](https://github.com/thogiti/thogiti.github.io/blob/master/_posts/2026-04-28-the-trap-of-the-three-buckets.md)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

感觉显而易见的框架

现代机器学习为我们提供了一个强大的模板：

$$ \text{model} + \text{data} + \text{loss} + \text{optimizer} \rightarrow \text{trained system}. $$

这个模板是有效的。它构建出的系统可以编写代码、总结论文、翻译语言，并通过推理解决问题，其表现足以让几乎所有旁观者感到不安。

但一个有用的工程抽象，可能会开始伪装成整个世界。

工程抽象说：

这是构建某种事物的一种有用方法。

本体论则说：

这就是事物真正的本质。

这是两种不同的主张。

也许这是对的。

但也许错误正是从这里开始的。

论点的简洁版本

让我们用最强的形式来陈述“奖励函数”这一论点。

大型语言模型是用相对简单的目标训练出来的，通常是下一 Token 预测的各种变体。损失函数很简单：

$$ \mathcal{L}(\theta) = - \sum_t \log p_\theta(x_t \mid x_{<t}). $$

模型会变得非常擅长预测文本。而人类学到的东西则更加广泛：目标、相关性、危险、社会意义、物理示能（affordances）以及因果结构。

这是一个很好的假设。它可能有助于构建更好的 AI。

但像费曼那样思考，就是要把这个想法简化到足以暴露其问题的程度。

问题： 如果人类的样本效率来自更好的损失函数，这意味着什么？

回答： 这意味着，人类和 LLM 之间的主要区别在于训练信号。学习者在本质上大体相似，但目标更丰富、更有结构，也更符合生物特性。

这听起来很合理。

现在提出那个危险的问题：

如果“样本效率”其实掩盖了几种不同的东西呢？

样本效率并非单一对象

当人们说人类具有样本效率时，他们经常会举这样的例子：

一个孩子见过一次狗，之后就能认出其他狗。

这听起来像是 one-shot learning。

那个“单一例子”建立在一整座先前结构的高山之上。

这就像看着一位物理学家迅速解决一个问题，然后说：“看，单次推理。”速度当然是真实的，但它依赖于多年内化的模型。

因此，第一个错误，是把人类的样本效率写成：

$$ \text{few examples} \rightarrow \text{good generalization}. $$

一个更好的示意是：

$$ \text{evolved priors} + \text{embodied experience} + \text{social curriculum} + \text{active intervention} + \text{memory} + \text{language} \rightarrow \text{apparently few-shot generalization}. $$

孩子不是在一个微型数据集上训练出来的小模型。孩子是一个嵌入在结构化世界中的活生生的控制系统。

孩子并非在被动地采样互联网

人类会这样做。

孩子是一个实验设计者。

孩子会伸手、摇晃、打破、提问、模仿、躲藏、测试、重试，并观察其他人注意到了什么。孩子通过行动改变数据分布。

从干预中学习，与从观察中学习，是不同的。

问题： 为什么干预如此强大？

回答： 因为行动可以区分假设。

如果我只是观察世界，许多解释都可以拟合同一份数据。如果我进行干预，我就可以迫使世界回答一个更尖锐的问题。

婴儿把勺子扔到地上，并不只是为了惹人烦。婴儿是在进行一场把声音、重力、物体恒存性、社会反应和 Agent 纠缠在一起的物理实验。

这不仅仅是更好的奖励。这是一个不同的学习循环。

标量陷阱

当我们说“奖励函数”时，常常会想到这样的东西：

$$ \max_\pi \mathbb{E}[R] $$

或者：

$$ \min_\theta \mathcal{L}(\theta). $$

这是有用的数学。但它也可能扭曲我们试图理解的事物。

有时这些系统会合作。有时它们会彼此冲突。

这里的奖励函数是什么？

你总是可以强行把答案压进一个巨大的标量里。你可以说，有机体的行为 as if 它在最大化某种隐式目标。

但这就像说一场风暴在最小化某个隐藏函数。也许你确实能写出这样一个函数。问题在于，它是否真的有助于你理解机制。

这就是标量陷阱：

一旦每种行为都可以被重新描述为优化，那么“优化”这个词也就不再能解释太多东西了。

奖励标记重要性，但它本身并不会创造理解

奖励很重要。它告诉系统什么是值得关心的。痛苦、饥饿、快乐、惊讶、依恋和社会认可，都会塑造学习。

但奖励并不等同于理解。

一个孩子碰了热炉子，学会了不再碰它。与此同时，还可能发生另一件事：孩子会建立一个因果模型：

$$ \text{stove} \rightarrow \text{heat} \rightarrow \text{pain/damage}. $$

这个模型是可以泛化的。它适用于蜡烛、熨斗、火、热锅、蒸汽，以及来自大人的警告。

奖励把这个事件标记为重要。而真正可重复利用的力量，来自因果抽象。

因此，我们应该区分两个问题：

是什么告诉系统：这件事很重要？
是什么让系统能够超越这件事本身进行泛化？

奖励在第一个问题上很强。但它本身并不能解决第二个问题。

理解，不是重复那些获得奖励的行为。理解，是预测当条件改变时会发生什么。

基因组不是一个压缩文件

这一论点的另一个版本会指向基因组。

与前沿模型的参数量相比，人类基因组非常小。因此，这种论点认为，基因组不可能直接存储智能。它一定存储的是某种紧凑的东西：一种算法、一种学习规则，或者一套复杂的奖励函数。

这部分是对的。基因组并不包含成年人的心智。

但这个类比开始失真了。

基因组不是一个压缩过的模型检查点（checkpoint）。它不是一段在一台干净机器中构建智能的 Python 脚本。

它是一个发育过程的规范，而这个过程与化学、物理、细胞、身体、激素、营养、子宫、父母、文化和世界纠缠在一起。

种子并不包含一棵微型树。它包含的是一个过程——只要世界参与其中，这个过程就能长成一棵树。

这种区别很重要。

如果我们把基因组想象成代码，就会去寻找那个巧妙的函数。但发育不是代码执行。它是在约束下的自组织。

大脑不是像笔记本电脑那样被组装出来的。它是生长出来的。

而这种生长，会把世界本身作为计算的一部分。

学习理论的观点

没有哪个学习者，对所有可能的世界都具有样本效率。

要想快速学习，一个系统必须预先假设某些东西。它必须限制可能性的空间。它必须认为某些模式比其他模式更有可能出现。

样本效率，是良好偏置（bias）带来的回报。

问题不是：

人类怎么能从这么少的例子中学习？

问题是：

人类在面对世界时，已经带来了哪些假设？

把所有这些都称作“奖励函数”，未免太轻率了。

解释的单位，是整个系统。

不作弊的最小玩具模型

让我们建立一个玩具模型。不是因为这个玩具模型是真的，而是因为它迫使我们说出“三桶框架”所隐藏的东西。

假设我们比较两个学习者。

学习者 A 是被动的。它接收样本：

$$ x_1, x_2, \ldots, x_n $$

并更新参数以减少损失：

$$ \theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t; x_t). $$

学习者 B 是主动的。它拥有身体、记忆和行动策略。每一步，它都会选择一个干预：

$$ a_t \sim \pi(a \mid h_t), $$

其中 $h_t$ 是它的历史。这个行动会改变下一个观测值：

$$ x_{t+1} \sim P(x \mid a_t, h_t, \text{world}). $$

现在，学习就不再是固定数据集上的损失最小化了。学习者正在塑造数据流本身。

这一个变化，就打破了原始框架的简洁性。

损失仍然重要。架构仍然重要。学习规则仍然重要。

但它们都处在一个更大的循环之内。

完整的对象不是：

$$ \text{model} + \text{optimizer} + \text{loss} + \text{data}. $$

它更接近于：

$$ \text{organism} + \text{body} + \text{world} + \text{action} + \text{culture} + \text{memory} + \text{objectives}. $$

这更难优化。

但它也更接近我们真正要解释的现象。

再次回到狗的例子

回到孩子和狗的例子。

简单的故事会说：

孩子只见过一只狗，就完成了泛化。惊人的样本效率。

更丰富的故事则是：

当大人说“狗”时，孩子接收到的并不是一个孤立的标签。孩子是在把语言绑定到一个多模态的、社会性的、具身的场景之中。

单词不是数据。单词是放置在世界模型上的一个把手。

这就是为什么孩子能够泛化。

标签落在了一个原本就存在的结构之上。

LLM 从一个文明留下的语言残渣中学习。孩子则是在产出这些残渣的那套机制之中学习。

这是两种不同的训练环境。

错误的问题会导向错误的研究计划

“三桶框架”提出的问题是：

究竟是哪一种缺失的成分解释了人类的样本效率：架构、学习规则，还是奖励？

这个问题自然会导向某种特定的研究计划：更好的架构、更好的优化器、更好的目标函数、更具生物启发性的奖励信号。

所有这些当然都可能有用。

但这个问题本身，可能仍然太狭窄了。

一个更好的问题是：

什么样的系统，能够在世界中通过行动来学习，在社会引导下学习，依靠进化形成的先验、多个记忆系统，以及一个让某些抽象变得廉价的身体来学习？

第一个研究计划是在微调训练循环。

第二个研究计划则是在追问：训练循环是否只是某种更大事物的影子。

为什么费曼会感到怀疑

我认为，理查德·费曼的思考和探索 style 在这里会非常有用。

费曼的风格并不是“使用简单类比”。那只是比较浅的一层。

更深一层的费曼式做法是：

不要让一个事物的名称替代你对这个事物的 understanding。

“奖励函数”很容易变成这样一个遮蔽无知的名字。

我们观察到丰富的行为，于是说：一定存在某种丰富的奖励函数。

但我们究竟解释了什么？

也许是。

但如果每一种导向信号最后都变成了“奖励”，那我们并没有发现机制。我们只是重新命名了谜团。

更诚实的做法是去问：

究竟是什么被更新了？

有哪些信息是可用的？

是什么样的干预产生了这些信息？

是什么样的先验让这种泛化成为可能？

什么会让学习者失败？

最后一个问题最重要。

一个理论如果说不出自己会在什么地方失效，那它还不是理论。它只是一种情绪。

简洁的世界，以及它破裂的时刻

在简洁的机器学习世界里，学习是整洁的。

有数据集。有模型。有损失。有优化器。系统通过减少预测误差而不断改进。

在那个世界里，“三个桶”的说法是有意义的。

但一旦我们试图解释人类学习，这个简洁的世界就会破裂。

这个系统并不只是被数据训练。

它也参与了数据的生成。

一旦你看到这一点，旧框架看起来就不再像是一种智能理论，而更像是把我们当下的机器反向投射到生物学之中。

这对 AI 意味着什么

这并不意味着 transformer 很糟。这并不意味着交叉熵很愚蠢。这也不意味着规模化（scaling）已经结束。

Bitter Lesson 依然成立：能够利用计算的通用方法，往往会比手工编码的聪明技巧赢得更多。

但尊重 Bitter Lesson，和崇拜当前的训练循环，并不是一回事。

这个教训并不是：

Transformer 加上下一 Token 预测，就是智能的最终形态。

它更接近于：

能够大规模学习和搜索的系统，往往会击败那些依赖脆弱的手工设计知识的系统。

未来的通用方法，可能不再像是对静态语料的被动预测，而更像是在丰富环境中进行自我导向的实验设计。

它可能仍然使用梯度下降。它可能仍然使用 transformer。它可能仍然使用语言。

但重点也许会从预测转向干预，从数据集转向世界，从奖励转向相关性，从输出流畅性转向模型在变化条件下的质量。

一个更好的分解方式

与其用三个桶来思考，我更愿意从七个问题开始。

1. 学习者被允许做什么？

被动学习者和行动中的学习者，解决的是不同的问题。

2. 学习者继承了什么结构？

样本效率来自偏置。问题在于，这种偏置是否与世界匹配。

3. 什么让错误变得足够安全，从而可以从中学习？

如果犯错的代价太高，探索就会崩溃。

4. 谁来选择课程？

孩子的课程，一部分是自己生成的，一部分由成人塑造，一部分则由世界强加。

5. 什么才算理解？

不是流畅的输出。不是熟练的表现。理解，是在条件改变后仍然能够做出预测。

6. 涉及哪些记忆系统？

情境记忆、程序性技能、语义抽象、情感显著性和运动习惯，并不像一个统一的参数存储库那样运作。

7. 分析的单位是什么？

不仅仅是大脑。也不仅仅是模型。分析单位是那个耦合系统：有机体、身体、世界、文化和时间。

这些问题，并不能整齐地装进架构、学习规则和奖励这三个桶里。

这正是它们有用的原因。

想象力的转变

旧的问题是：

机器学习循环中缺失的成分是什么？

更好的问题是：

为什么我们会假设，机器学习循环就是容纳这个谜团的正确框架？

这就是想象力的转变。

机器学习循环当然有用。但一个有用的透镜，其危险之处在于：过了一段时间之后，你就不再看见这个透镜本身了。

一切都变成了架构。

一切都变成了损失。

一切都变成了奖励。

然后世界抛来一些不适配的现象，我们不是去改变框架，而是去拉伸这些词的含义。

好奇心变成了奖励。

具身变成了数据。

文化变成了预训练。

发育变成了课程。

Agent 性变成了主动采样。

这些翻译有时是有用的。但它们也可能把现象压扁。

有时翻译就是理解。

有时翻译就是抹除。

遗留的问题

那么，人类的样本效率究竟从何而来？

不是来自某一个单独的地方。

它来自这样一个事实：人类是进化而来的、具身的、社会性的、主动的、拥有丰富记忆的世界建模系统，生活在一个其结构可被利用的世界之中。

奖励函数可能是其中的一部分。架构可能是其中的一部分。学习规则可能也是其中的一部分。

但它们没有任何一个，单独构成了我们要解释的对象。

真正的对象，是那个循环。

孩子不是从例子中学习世界。孩子进入世界，作用于它，也被它作用；通过语言借用他人的心智；并缓慢构建出能够经受惊讶的模型。

这就是为什么孩子在表面上似乎能从极少的信息中学习。

表面，并不是学习真正开始的地方。

结语：不要把把手误认为机器

架构、学习规则和奖励，都是把手。是好把手，也是有用的把手。

但智能本身，可能并不是这些把手所暗示的那台机器。

如果我们把当前的机器学习训练循环视为所有学习的自然形式，那么每一个生物学谜团都会变成一个缺失的超参数。这很令人安心。但也很危险。

费曼式的做法，是在这种不适感中多停留一会儿。

不要太快地问：

哪个桶是对的？

而要去问：

在我们强行把它塞进这些桶之前，现象本身到底是什么？

学习者不仅仅是一个最小化损失的模型。

那是生命与不确定性的相遇。

如果 AI 想要变得更具样本效率、更鲁棒，并且更擅长理解而不是仅仅生成输出，那么它所需要的，可能不仅仅是一个更好的损失函数。

它可能需要一种更好的方式去面对世界。

原文链接： github.com/thogiti/thogi...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。

三桶陷阱：为何人类学习无法被套入机器学习训练循环

感觉显而易见的框架

论点的简洁版本

样本效率并非单一对象

孩子并非在被动地采样互联网

标量陷阱

奖励标记重要性，但它本身并不会创造理解

基因组不是一个压缩文件

学习理论的观点

不作弊的最小玩具模型

再次回到狗的例子

错误的问题会导向错误的研究计划

为什么费曼会感到怀疑

简洁的世界，以及它破裂的时刻

这对 AI 意味着什么

一个更好的分解方式

1. 学习者被允许做什么？

2. 学习者继承了什么结构？

3. 什么让错误变得足够安全，从而可以从中学习？

4. 谁来选择课程？

5. 什么才算理解？

6. 涉及哪些记忆系统？

7. 分析的单位是什么？

想象力的转变

遗留的问题

结语：不要把把手误认为机器

0 条评论

文章目录