文章深入探讨了人类学习效率远高于大语言模型(LLM)的本质原因。作者挑战了将智能简化为“架构、学习规则、奖励函数”的传统工程视角,指出人类的样本高效性并非源于更复杂的损失函数,而是建立在进化先验、具身经验、主动干预以及社会文化脚手架之上。文章强调,人类是主动的实验设计者而非被动的数据采样器,真正的智能源于与世界的交互及因果模型的构建,而非单纯的预测误差最小化。
现代机器学习为我们提供了一个强大的模板:
$$ \text{model} + \text{data} + \text{loss} + \text{optimizer} \rightarrow \text{trained system}. $$
这个模板是有效的。它构建出的系统可以编写代码、总结论文、翻译语言,并通过推理解决问题,其表现足以让几乎所有旁观者感到不安。
但一个有用的工程抽象,可能会开始伪装成整个世界。
工程抽象说:
这是构建某种事物的一种有用方法。
本体论则说:
这就是事物真正的本质。
这是两种不同的主张。
因此,当我们询问为什么人类的学习方式不同时,必须格外小心。如果每一个答案都必须落入架构、学习规则或奖励之中,那么我们可能已经预设:生物智能就是在一套“湿硬件”上实现的机器学习训练循环。
也许这是对的。
但也许错误正是从这里开始的。
让我们用最强的形式来陈述“奖励函数”这一论点。
大型语言模型是用相对简单的目标训练出来的,通常是下一 Token 预测的各种变体。损失函数很简单:
$$ \mathcal{L}(\theta) = - \sum_t \log p_\theta(x_t \mid x_{<t}). $$
模型会变得非常擅长预测文本。而人类学到的东西则更加广泛:目标、相关性、危险、社会意义、物理示能(affordances)以及因果结构。
因此,也许大脑的秘密主要不在于架构。也许秘密在于一个更丰富的目标。也许那些被随口称为“蜥蜴脑”的皮层下系统,会向皮层和其他高级系统提供专门的教学信号。也许这些信号的作用就像复杂的损失函数。
这是一个很好的假设。它可能有助于构建更好的 AI。
但像费曼那样思考,就是要把这个想法简化到足以暴露其问题的程度。
问题: 如果人类的样本效率来自更好的损失函数,这意味着什么?
回答: 这意味着,人类和 LLM 之间的主要区别在于训练信号。学习者在本质上大体相似,但目标更丰富、更有结构,也更符合生物特性。
这听起来很合理。
现在提出那个危险的问题:
如果“样本效率”其实掩盖了几种不同的东西呢?
当人们说人类具有样本效率时,他们经常会举这样的例子:
一个孩子见过一次狗,之后就能认出其他狗。
这听起来像是 one-shot learning。
但孩子并不是从零开始的。在看到那只狗之前,孩子已经花了数年时间学习物体、运动、面孔、Agent、声音、触觉、生物运动、社会注意力,以及世界中存在会随时间持续存在的有界事物这一事实。
那个“单一例子”建立在一整座先前结构的高山之上。
这就像看着一位物理学家迅速解决一个问题,然后说:“看,单次推理。”速度当然是真实的,但它依赖于多年内化的模型。
因此,第一个错误,是把人类的样本效率写成:
$$ \text{few examples} \rightarrow \text{good generalization}. $$
一个更好的示意是:
$$ \text{evolved priors} + \text{embodied experience} + \text{social curriculum} + \text{active intervention} + \text{memory} + \text{language} \rightarrow \text{apparently few-shot generalization}. $$
孩子不是在一个微型数据集上训练出来的小模型。孩子是一个嵌入在结构化世界中的活生生的控制系统。
LLM 主要摄取静态文本。它们不会因为对重力感到困惑而决定下一句读什么。它们不会去戳一个杯子,把它弄掉,听它撞击地板的声音,看着大人的表情,并同时更新关于因果关系、惊讶、危险和社会意义的模型。
人类会这样做。
孩子是一个实验设计者。
孩子会伸手、摇晃、打破、提问、模仿、躲藏、测试、重试,并观察其他人注意到了什么。孩子通过行动改变数据分布。
从干预中学习,与从观察中学习,是不同的。
问题: 为什么干预如此强大?
回答: 因为行动可以区分假设。
如果我只是观察世界,许多解释都可以拟合同一份数据。如果我进行干预,我就可以迫使世界回答一个更尖锐的问题。
婴儿把勺子扔到地上,并不只是为了惹人烦。婴儿是在进行一场把声音、重力、物体恒存性、社会反应和 Agent 纠缠在一起的物理实验。
这不仅仅是更好的奖励。这是一个不同的学习循环。
当我们说“奖励函数”时,常常会想到这样的东西:
$$ \max_\pi \mathbb{E}[R] $$
或者:
$$ \min_\theta \mathcal{L}(\theta). $$
这是有用的数学。但它也可能扭曲我们试图理解的事物。
人类的学习,可能并不是由一个干净的标量目标所支配。它更可能是饥饿、疼痛、好奇心、依恋、模仿、地位、恐惧、游戏、内稳态、预测、运动控制、社会归属感和记忆巩固之间的一种协商。
有时这些系统会合作。有时它们会彼此冲突。
一个孩子可能想探索,却害怕尴尬。一个青少年可能知道正确答案,却为了地位而做出优化。一个成年人可能知道长期利益所在,却仍然选择短期的缓解。
这里的奖励函数是什么?
你总是可以强行把答案压进一个巨大的标量里。你可以说,有机体的行为 as if 它在最大化某种隐式目标。
但这就像说一场风暴在最小化某个隐藏函数。也许你确实能写出这样一个函数。问题在于,它是否真的有助于你理解机制。
这就是标量陷阱:
一旦每种行为都可以被重新描述为优化,那么“优化”这个词也就不再能解释太多东西了。
奖励很重要。它告诉系统什么是值得关心的。痛苦、饥饿、快乐、惊讶、依恋和社会认可,都会塑造学习。
但奖励并不等同于理解。
一个孩子碰了热炉子,学会了不再碰它。与此同时,还可能发生另一件事:孩子会建立一个因果模型:
$$ \text{stove} \rightarrow \text{heat} \rightarrow \text{pain/damage}. $$
这个模型是可以泛化的。它适用于蜡烛、熨斗、火、热锅、蒸汽,以及来自大人的警告。
奖励把这个事件标记为重要。而真正可重复利用的力量,来自因果抽象。
因此,我们应该区分两个问题:
奖励在第一个问题上很强。但它本身并不能解决第二个问题。
这正是“更好的损失函数”这一框架开始变得滑移的地方。更丰富的损失也许能改善训练信号,但真正困难的部分,是构建能够在变化中保持有效的世界模型。
理解,不是重复那些获得奖励的行为。理解,是预测当条件改变时会发生什么。
这一论点的另一个版本会指向基因组。
与前沿模型的参数量相比,人类基因组非常小。因此,这种论点认为,基因组不可能直接存储智能。它一定存储的是某种紧凑的东西:一种算法、一种学习规则,或者一套复杂的奖励函数。
这部分是对的。基因组并不包含成年人的心智。
但这个类比开始失真了。
基因组不是一个压缩过的模型检查点(checkpoint)。它不是一段在一台干净机器中构建智能的 Python 脚本。
它是一个发育过程的规范,而这个过程与化学、物理、细胞、身体、激素、营养、子宫、父母、文化和世界纠缠在一起。
种子并不包含一棵微型树。它包含的是一个过程——只要世界参与其中,这个过程就能长成一棵树。
这种区别很重要。
如果我们把基因组想象成代码,就会去寻找那个巧妙的函数。但发育不是代码执行。它是在约束下的自组织。
大脑不是像笔记本电脑那样被组装出来的。它是生长出来的。
而这种生长,会把世界本身作为计算的一部分。
没有哪个学习者,对所有可能的世界都具有样本效率。
要想快速学习,一个系统必须预先假设某些东西。它必须限制可能性的空间。它必须认为某些模式比其他模式更有可能出现。
样本效率,是良好偏置(bias)带来的回报。
问题不是:
人类怎么能从这么少的例子中学习?
问题是:
人类在面对世界时,已经带来了哪些假设?
这些假设可能存在于身体结构、感知系统、运动原语、社会驱动力、因果先验、物体恒存性、空间推理、记忆系统、文化脚手架、语言、游戏、模仿和发育时机之中。
把所有这些都称作“奖励函数”,未免太轻率了。
这就像用“更好的目标函数”来解释鸟类飞行。鸟当然有目标。但它也有翅膀、肌肉、羽毛、骨骼、空气、重力,以及数百万年的选择,用来塑造它们之间的耦合关系。
解释的单位,是整个系统。
让我们建立一个玩具模型。不是因为这个玩具模型是真的,而是因为它迫使我们说出“三桶框架”所隐藏的东西。
假设我们比较两个学习者。
学习者 A 是被动的。它接收样本:
$$ x_1, x_2, \ldots, x_n $$
并更新参数以减少损失:
$$ \theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t; x_t). $$
学习者 B 是主动的。它拥有身体、记忆和行动策略。每一步,它都会选择一个干预:
$$ a_t \sim \pi(a \mid h_t), $$
其中 $h_t$ 是它的历史。这个行动会改变下一个观测值:
$$ x_{t+1} \sim P(x \mid a_t, h_t, \text{world}). $$
现在,学习就不再是固定数据集上的损失最小化了。学习者正在塑造数据流本身。
这一个变化,就打破了原始框架的简洁性。
此时,样本效率取决于学习者原本相信什么、它能采取什么行动、这些行动向世界提出了什么问题、世界使什么变得可观测、社会系统替它回答了什么、哪些记忆被巩固下来,以及哪些错误是足够安全、可以拿来探索的。
损失仍然重要。架构仍然重要。学习规则仍然重要。
但它们都处在一个更大的循环之内。
完整的对象不是:
$$ \text{model} + \text{optimizer} + \text{loss} + \text{data}. $$
它更接近于:
$$ \text{organism} + \text{body} + \text{world} + \text{action} + \text{culture} + \text{memory} + \text{objectives}. $$
这更难优化。
但它也更接近我们真正要解释的现象。
回到孩子和狗的例子。
简单的故事会说:
孩子只见过一只狗,就完成了泛化。惊人的样本效率。
更丰富的故事则是:
在见到那只狗之前,孩子已经拥有关于物体、动物、面孔、运动、皮毛、眼睛、声音、Agent、大小、危险、友好、命名、指点、成人注意力和类别形成的各种模型。
当大人说“狗”时,孩子接收到的并不是一个孤立的标签。孩子是在把语言绑定到一个多模态的、社会性的、具身的场景之中。
单词不是数据。单词是放置在世界模型上的一个把手。
这就是为什么孩子能够泛化。
标签落在了一个原本就存在的结构之上。
这也是为什么纯语言训练显得奇怪。文本包含具身经验的影子,但不是经验本身。它包含对行动的描述,而不是行动的后果。它包含地图,而不是地形带来的真实压力。
LLM 从一个文明留下的语言残渣中学习。孩子则是在产出这些残渣的那套机制之中学习。
这是两种不同的训练环境。
“三桶框架”提出的问题是:
究竟是哪一种缺失的成分解释了人类的样本效率:架构、学习规则,还是奖励?
这个问题自然会导向某种特定的研究计划:更好的架构、更好的优化器、更好的目标函数、更具生物启发性的奖励信号。
所有这些当然都可能有用。
但这个问题本身,可能仍然太狭窄了。
一个更好的问题是:
什么样的系统,能够在世界中通过行动来学习,在社会引导下学习,依靠进化形成的先验、多个记忆系统,以及一个让某些抽象变得廉价的身体来学习?
这个问题会把我们引向别处:具身 Agent、发育课程、主动学习、因果发现、社会学习、记忆架构、自我生成的实验、世界模型压力测试、多时间尺度学习,以及知道自己何时处于分布之外的系统。
第一个研究计划是在微调训练循环。
第二个研究计划则是在追问:训练循环是否只是某种更大事物的影子。
我认为,理查德·费曼的思考和探索 style 在这里会非常有用。
费曼的风格并不是“使用简单类比”。那只是比较浅的一层。
更深一层的费曼式做法是:
不要让一个事物的名称替代你对这个事物的 understanding。
“奖励函数”很容易变成这样一个遮蔽无知的名字。
我们观察到丰富的行为,于是说:一定存在某种丰富的奖励函数。
但我们究竟解释了什么?
如果一个孩子因为好奇而探索,那么好奇心是奖励吗?如果孩子模仿父母,那么模仿是奖励吗?如果孩子逃避羞耻,那么羞耻是奖励吗?如果孩子为了减少不确定性而提问,那么减少不确定性是奖励吗?
也许是。
但如果每一种导向信号最后都变成了“奖励”,那我们并没有发现机制。我们只是重新命名了谜团。
更诚实的做法是去问:
究竟是什么被更新了?
有哪些信息是可用的?
是什么样的干预产生了这些信息?
是什么样的先验让这种泛化成为可能?
什么会让学习者失败?
最后一个问题最重要。
一个理论如果说不出自己会在什么地方失效,那它还不是理论。它只是一种情绪。
在简洁的机器学习世界里,学习是整洁的。
有数据集。有模型。有损失。有优化器。系统通过减少预测误差而不断改进。
在那个世界里,“三个桶”的说法是有意义的。
但一旦我们试图解释人类学习,这个简洁的世界就会破裂。
人类调节身体。他们寻求信息。他们规避危险。他们模仿。他们玩耍。他们睡觉。他们演练。他们向大人提问。他们制造工具。他们改变环境。他们继承文化。他们在能够解释自己为何在意之前,就已经学会了该在意什么。
这个系统并不只是被数据训练。
它也参与了数据的生成。
一旦你看到这一点,旧框架看起来就不再像是一种智能理论,而更像是把我们当下的机器反向投射到生物学之中。
这并不意味着 transformer 很糟。这并不意味着交叉熵很愚蠢。这也不意味着规模化(scaling)已经结束。
Bitter Lesson 依然成立:能够利用计算的通用方法,往往会比手工编码的聪明技巧赢得更多。
但尊重 Bitter Lesson,和崇拜当前的训练循环,并不是一回事。
这个教训并不是:
Transformer 加上下一 Token 预测,就是智能的最终形态。
它更接近于:
能够大规模学习和搜索的系统,往往会击败那些依赖脆弱的手工设计知识的系统。
未来的通用方法,可能不再像是对静态语料的被动预测,而更像是在丰富环境中进行自我导向的实验设计。
它可能仍然使用梯度下降。它可能仍然使用 transformer。它可能仍然使用语言。
但重点也许会从预测转向干预,从数据集转向世界,从奖励转向相关性,从输出流畅性转向模型在变化条件下的质量。
与其用三个桶来思考,我更愿意从七个问题开始。
被动学习者和行动中的学习者,解决的是不同的问题。
样本效率来自偏置。问题在于,这种偏置是否与世界匹配。
如果犯错的代价太高,探索就会崩溃。
孩子的课程,一部分是自己生成的,一部分由成人塑造,一部分则由世界强加。
不是流畅的输出。不是熟练的表现。理解,是在条件改变后仍然能够做出预测。
情境记忆、程序性技能、语义抽象、情感显著性和运动习惯,并不像一个统一的参数存储库那样运作。
不仅仅是大脑。也不仅仅是模型。分析单位是那个耦合系统:有机体、身体、世界、文化和时间。
这些问题,并不能整齐地装进架构、学习规则和奖励这三个桶里。
这正是它们有用的原因。
旧的问题是:
机器学习循环中缺失的成分是什么?
更好的问题是:
为什么我们会假设,机器学习循环就是容纳这个谜团的正确框架?
这就是想象力的转变。
机器学习循环当然有用。但一个有用的透镜,其危险之处在于:过了一段时间之后,你就不再看见这个透镜本身了。
一切都变成了架构。
一切都变成了损失。
一切都变成了奖励。
然后世界抛来一些不适配的现象,我们不是去改变框架,而是去拉伸这些词的含义。
好奇心变成了奖励。
具身变成了数据。
文化变成了预训练。
发育变成了课程。
Agent 性变成了主动采样。
这些翻译有时是有用的。但它们也可能把现象压扁。
有时翻译就是理解。
有时翻译就是抹除。
那么,人类的样本效率究竟从何而来?
不是来自某一个单独的地方。
它来自这样一个事实:人类是进化而来的、具身的、社会性的、主动的、拥有丰富记忆的世界建模系统,生活在一个其结构可被利用的世界之中。
奖励函数可能是其中的一部分。架构可能是其中的一部分。学习规则可能也是其中的一部分。
但它们没有任何一个,单独构成了我们要解释的对象。
真正的对象,是那个循环。
孩子不是从例子中学习世界。孩子进入世界,作用于它,也被它作用;通过语言借用他人的心智;并缓慢构建出能够经受惊讶的模型。
这就是为什么孩子在表面上似乎能从极少的信息中学习。
表面,并不是学习真正开始的地方。
架构、学习规则和奖励,都是把手。是好把手,也是有用的把手。
但智能本身,可能并不是这些把手所暗示的那台机器。
如果我们把当前的机器学习训练循环视为所有学习的自然形式,那么每一个生物学谜团都会变成一个缺失的超参数。这很令人安心。但也很危险。
费曼式的做法,是在这种不适感中多停留一会儿。
不要太快地问:
哪个桶是对的?
而要去问:
在我们强行把它塞进这些桶之前,现象本身到底是什么?
学习者不仅仅是一个最小化损失的模型。
学习者还必须决定该注意什么、该尝试什么、该记住什么、该害怕什么、该信任谁、何时提问、何时玩耍、何时坚持,以及世界何时已经变化到足以让旧模型失效。
那是生命与不确定性的相遇。
如果 AI 想要变得更具样本效率、更鲁棒,并且更擅长理解而不是仅仅生成输出,那么它所需要的,可能不仅仅是一个更好的损失函数。
它可能需要一种更好的方式去面对世界。
- 原文链接: github.com/thogiti/thogi...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!
作者暂未设置收款二维码