世界模型:从零到英雄

  • abdelstark
  • 发布于 2026-04-24 03:42
  • 阅读 131

文章梳理了AI语境下“world model”一词的混乱用法,区分了视频生成、3D空间生成、生成式世界模型、JEPA式潜空间世界模型、以及基础设施/主动推断等五类路线。作者强调真正的世界模型应满足动作条件、因果预测、长时序一致性三点,并认为JEPA/潜空间预测在信息效率和可解释的学习目标上更接近“智能”的核心。但文章也承认,生成式路线在演示效果与工程落地上更强,最终胜负仍取决于是否能在OOD物理泛化、长程规划和机器人闭环上继续突破。

Image

前言

“world model”这个短语现在指代太多不同的东西了,以至于当你遇到它时,唯一稳妥的假设就是:说话者和听众对它的理解并不相同。我开始写这篇文章,是因为这种噪音已经变得难以分辨。2026 年 3 月,Yann LeCun 的 AMI Labs 完成了 10.3 亿美元的种子轮融资,用于构建 world models。几周前,Fei-Fei Li 的 World Labs 也为 world models 融到了另一笔十亿美元。Google DeepMind 的 Genie 3 是一个 world model。NVIDIA Cosmos 是一个 world model 平台。Wayve 的 GAIA-2 是一个用于驾驶的 world model。Meta 的 V-JEPA 2 是一个 world model。OpenAI 把 Sora 定位为一个 world simulator。General Intuition 从游戏数据中构建 world models。Generalist 的 Pete Florence 发了一篇长文,论证 GEN-1 不是一个 world model,恰恰因为现在每个人都在把自己的东西这么叫。

AMI Labs 的 CEO Alexandre LeBrun 在融资那周把这句话直接说了出来:“六个月内,每家公司都会把自己称为 world model 来融资。”这话出自一家正在做这件事的公司内部,显得很奇怪,而这种奇怪恰恰说明了问题。这个标签已经变得足够松散,以至于即便是那些真诚使用它的实验室,也不得不先解释他们是什么意思。

问题比营销更深。把那些只是顺手拿来这个术语的公司剥离掉之后,剩下的公司仍然在构建本质上完全不同的东西。它们在模型预测什么、在什么空间里预测、以什么为条件、拿什么来评估,以及接入什么下游系统这些问题上都不同。你可以把它们归为一类,但这类东西在机制层面几乎没有共同点。

这篇文章试图把这个术语拆开。我不会假装自己保持中立。以 representation-space 为主的阵营,从 LeCun 2022 年 JEPA 立场论文一路延伸到 V-JEPA 2 和其他 JEPA 变体,在我看来是当前最具思想严肃性的押注,我会说明原因。但我也会尽量为其他阵营做最强论证,而不是简单否定它们,因为这个领域确实充满不确定性,而且一些最强的实证结果正来自那些我持怀疑态度的方法。如果你读完之后觉得我错了,至少你会有一张更清晰的地图来反驳我。

第一部分:这个术语坏掉了

1990 年,慕尼黑工业大学一位名叫 Jürgen Schmidhuber 的研究生发表了一份技术报告,标题是 Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments。标题很长,思想却很简单:训练一个神经网络去预测环境,再训练第二个网络在其中行动。让第一个网络充当可微分模拟器,供第二个学习。Schmidhuber 在那个年代的工作里出现了相关想法,包括在学到的表示中进行规划,以及把 curiosity 作为一种内在训练信号。一个平行的论点次年来自 RL 传统:Sutton 1991 年的 Dyna,主张将学到的环境模型与动作和规划统一起来。现代词汇体系的大部分在 1990 年代中期就已经成形,只是当时算力还不具备条件,因此这些方向在接下来的二十年里大多沉寂。它们在 2018 年带着一个名字和一个清晰的演示回来了。David Ha 和 Schmidhuber 在 NeurIPS 上发表了 World Models。一个 variational autoencoder 把原始像素压缩成 latent vector。一个 recurrent network 预测下一个 latent。一个小型 controller 选择动作。他们让 controller 完全在 world model 的梦境里训练,从不让它接触真实环境,而当他们把它接回真实环境时,策略依然能迁移。它在赛车上有效,在 Doom 上也有效。这篇论文的标题于是变成了这个东西的通用名称。

Image

来自 Scott McCloud 的 Understanding Comics 的一个 World Model。

那篇论文核心的图像,正是生成式 world model 谱系一直以来追逐的东西:一个 Agent 通过生活在世界模型里来学习行动,在想象中排练,然后推门走出去并具备胜任力。梦中的 Agent。请记住这个图像。这篇文章里的每个阵营都不是从它直接延伸出来的。尤其是 latent-space 阵营(第三部分,第 4 阵营)源自 LeCun 在 2010 年代的 self-supervised learning 计划,这是另一条脉络,有自己关于 predictive representations 的主张。下面这五个阵营,争论的是 Agent 头脑里应该发生什么。它们并不共享相同的思想祖先。如果这个术语仍然保留着 Ha 和 Schmidhuber 在 2018 年赋予它的含义,那么今天我们会有一个清晰的技术定义:world model 是一个学习到的环境动力学预测模型,可作为用于规划和 policy learning 的可微分模拟器。

这个定义在学术文献里大体上仍然成立。但在过去八年里,这个术语至少被五种不同的 research agenda 占用了,每一种都在解决不同的问题,每一种都有自己的评估协议,每一种都押注不同的未来。看看今天什么东西会被叫做 world model。

像 Sora 这样的 video generation model 能够从文本 prompt 生成一分钟高保真视频。你不能与之交互。你不能问,如果你推一下桌子上的杯子会发生什么。它生成的是一个合理的未来,而不是在你的干预条件下的未来。OpenAI 的技术报告把自己命名为 Video Generation Models as World Simulators,并在参考文献中引用了 Ha 和 Schmidhuber 2018。但它们不是同一个对象。

Image

Open AI Sora Prompt to Video

像 World Labs 的 Marble 这样的 spatial generation model,能够从文本或图片 prompt 生成一个持久、可导航的 3D 场景。你可以在其中行走,也可以导出 mesh。你不能对它施加动作并观察 dynamics 展开。Fei-Fei Li 把这些称为“large world models”,这是一个连贯而有意思的押注,但这个押注关乎的是空间结构,而不是时间预测,而且它不是 action-conditioned 的。

Image

World Labs 的 Marble 3D world

像 V-JEPA 2 这样的 latent-space predictive architecture,是在抽象 embedding space 中预测视频未来的 representation,而不是像素。你无法直接看它的输出,因为它没有 pixel output。你通过它在下游任务上的表现来评估它,例如 action anticipation、video question-answering 或 robot planning。这个设计的全部目的,就是不要生成其他阵营作为产品正在销售的那种输出。

Image

V-JEPA 2 概览,这里最重要的是展示下游任务,而不是某种特定输出,这与前面展示的类别不同

像 NVIDIA Cosmos 这样的 physics simulation platform,是一组用于生成 synthetic video 和训练 physical AI systems 的模型、数据管道和 tokenizer。它与 Isaac Sim 和定制模拟器竞争,而不是与 Sora 或 JEPA 竞争。NVIDIA 把自己的模型称为 “world foundation models”。这个术语用得很坦率;这个类别与其他类别是正交的。

Image

NVIDIA Cosmos 基于 instruction 的 video prediction 样例

像 DeepMind 的 Genie 3 这样的 generative simulator,以实时、逐帧的方式生成可导航、action-conditioned 的环境。你可以在里面行走,而世界会对你的输入做出响应。与其他任何一种相比,这更接近经典定义。但它仍然是在 pixel space 中生成,而且它学到的任何 physics 都是涌现出来的,而不是基于原理的。

Image

由 Google DeepMind 的 Genie 3 生成的 action conditioned environment

这不是同一个对象的五种观察角度。它们是五个不同的对象,共享同一个名字。它们有不同的训练数据、不同的架构、不同的评估指标、不同的部署路径,以及不同的关于 intelligence 是什么的理论。把它们当成一个类别,不只是粗糙而已,还会掩盖真正有意思的技术分歧在哪里。

正确的问题不是哪个团队有最好的 world model,而是 world model 是为了什么。是为了训练 Agent 的模拟器?是为了把输出喂给下游系统的 representation learner?是为了物理 AI 的数据生成器?是为了创意工具?还是关于 intelligence 本身的科学理论?这些问题各自有不同的正确答案,而且这些答案并不能组合在一起。

在走进各个阵营之前,技术定义必须先承担一些分量。

第二部分:World Model 到底是什么

先从形式化对象说起。文献中占主导地位的有两种表述。

第一种是经典 reinforcement learning 分解,它可以追溯到 1990 年代的 POMDP 文献,并在 Dreamer 系列论文中被写得最清楚(Hafner et al., 2019 到 2025)。在这个传统里,world model 分解为三个学习组件:

  • transition model P(sₜ₊₁ | sₜ, aₜ):当你对世界施加动作时,世界如何演化,
  • observation model P(oₜ | sₜ):感官输入如何由状态生成,
  • 可选的 reward model P(rₜ | sₜ):哪些结果是有价值的。

这是大多数生成式 world model 文献中的主力表述。它是概率性的,把 state 和 observation 区分开来,并且将 prediction 与 reward 绑定在一起。

第二种表述来自 Yann LeCun,出自他 2022 年的立场论文 A Path Towards Autonomous Machine Intelligence,以及他在 2024 年 2 月的一篇 LinkedIn 帖子 “Lots of confusion about what a world model is. Here is my definition.” 中的澄清。LeCun 写道:

Given:

  • an observation x(t)
  • a previous estimate of the state of the world s(t)
  • an action proposal a(t)
  • a latent variable proposal z(t)

A world model computes:

  • representation: h(t) = Enc(x(t))
  • prediction: s(t+1) = Pred( h(t), s(t), z(t), a(t) )

Where

  • Enc() is an encoder (a trainable deterministic function, e.g. a neural net)
  • Pred() is a hidden state predictor (also a trainable deterministic function).
  • the latent variable z(t) represents the unknown information that would allow us to predict exactly what happens. It must be sampled from a distribution or or varied over a set. It parameterizes the set (or distribution) of plausible predictions.

LeCun 的表述有三点区别。第一,world model 内部没有 reward model:reward、cost 和 intrinsic motivation 位于更大架构的不同模块里。第二,predictor 是 deterministic 的,stochasticity 由 latent variable z(t) 处理,而 z(t) 参数化了可能未来的集合。第三,也是对这篇文章后文最重要的一点,prediction 发生在 s(t+1) 上,而 s(t+1) 是一个表示,不一定是 observation。是否把 s(t+1) 解码回像素,是另一回事。在 JEPA 家族里,这件事明确不会做。

在这篇文章的其余部分,我将使用 LeCun 的表述作为参考点。Dreamer 风格的 probabilistic decomposition 在大多数实际用途上是等价的,你会在大多数论文里看到它。两种 formalism 在与论证相关的地方存在差异时,我会指出来。

在任一表述下,world model 与那些被叫做 world model 的邻近对象之间,有三点区别。

第一,它是 action-conditioned 的。预测显式地以 a(t) 为条件。World model 回答的是“如果我做 X,会发生什么?”这就是 video model 和 simulator 的区别。Video model 预测给定过去后的下一帧;world model 预测给定过去和干预后的下一个状态。Sora 可以生成一辆吉普车在尘土中行驶。它不接受逐步的 control signal,因此一旦生成开始,你无法再对它进行 steering。Genie 3 可以,因为它把用户输入(WASD、mouse)作为每一帧 conditioning 的一部分。这个区别不是细节,这就是定义本身。

第二,它是 causal 的,而不是 correlational 的。一个以最大化真实世界视频似然为目标训练的 video model,会学到玻璃掉落时通常会碎。它不一定会学到碎裂是由掉落造成的。检验这一点的方法,是在 distribution shift 下做 intervention:把玻璃放到训练中没见过的情境里(比如掉到 trampoline 上),看看模型预测的是 physics 所说的结果(弹起),还是训练数据告诉它会发生的结果(碎裂)。

ByteDance Seed 2024 年的一篇论文 How Far Is Video Generation from World Model: A Physical Law Perspective,正是做了这种受控研究。作者本身就在一个大型 video generation lab,这让这个结论更难被轻轻带过。他们显示,包括 state-of-the-art diffusion architectures 在内的视频模型都没有通过测试。在颜色、尺寸、速度和形状的未见组合条件下,模型会匹配最接近的训练样本,而不是应用物理定律。它们在分布内泛化得很好,在组合意义上会退化,在分布外则失败。在他们测试的范围内,scale 并没有解决问题。

第三,它在多步 rollout 中必须保持一致性。World model 必须在自身内部闭环。它在 t+1 时刻的预测会成为 t+2 时刻预测的输入,误差会不断累积。这就是大多数 world model 失败的地方。Genie 3 根据 DeepMind 的说法,能保持“几分钟”的一致性。GAIA-2 在受限的驾驶领域里做得更久。Dreamer 4 在 Minecraft 中能把序列延展到两万次以上动作,这是当前长时程想象的 state of the art。大多数 video model 在 open-loop rollout 中几秒钟内就退化了,而它们也没有声称自己能做到更多。

把这三点放在一起,你就有了一个清晰的成员测试。如果一个模型满足:(a) 接受动作作为输入,(b) 输出未来状态或观测,(c) 在足够长的 rollout 上保持一致性,以至于能用于规划或 Agent 训练,那么它就是 world model。任何没通过其中一项测试的东西,都是别的东西:video generator、3D scene generator、representation learner、基础设施层。这些东西都可能有用,甚至可能是必要组件。但它们不是 world model,把它们叫做 world model,会抹掉这个概念最初之所以成立的那条区分。

分岔路:状态,而不是像素

还有一个 formal definition 的部分,在这篇文章后面会起到大部分作用。那就是 state s(t) 和 observation x(t) 的区别。

在 LeCun 的表述里,这一区别是内建的:encoder 把 observation 映射到 latent state,predictor 在那个 state 上运行。在经典表述里,同样的结构体现为 transition model 与 observation model 之间的差异。无论如何,world model 都是在 state space 中运行。state 可以是模型学到的抽象 embedding。是否要把 observation 渲染出来、是否要在 pipeline 末端生成像素,是一个独立的工程决策,而不是是否进行 world modeling 的决定。

这就是分岔路。整个领域沿着它分裂。

一边认为:像素才是重点。你应该渲染 observation,因为你需要看到模型认为会发生什么,这既是为了人类评估,也是为了作为训练信号,迫使模型去预测世界,而不是绕开世界进行抽象。没有像素,你就不知道模型到底学到了什么。

另一边认为:像素是干扰项。它们迫使模型把算力花在高熵细节上(地毯纹理、水面的涟漪、树叶的确切图案),这些东西与 intelligence 毫无关系。正确的预测对象应该是下一次 observation 的 representation,也就是某种抽象 embedding space,而不是费劲地再解码回 image space。

双方都觉得对方搞错了。双方都没有弄错自己在做什么。它们做的是不同的东西,而它们之间的这条线,是判断某个实验室属于哪个阵营的最清晰信号。把这个区别记住。第三部分的五个阵营就是沿着这条线来分的。

有了这些,我们可以开始分类学了。

第三部分:五个阵营

阵营 1:把 Video Generation 当作“World Simulation”

最典型的表述是 OpenAI 2024 年 2 月的技术报告 Video Generation Models as World Simulators。论点大致如下:Sora 在大规模互联网视频上训练。它生成连贯的一分钟长度片段,具有涌现出的 3D 一致性和 object permanence。因此,它显然已经隐式学会了模拟物理世界,而 scale 会弥补剩下的缺口。报告作者的措辞很谨慎;他们承认 Sora 不能正确建模玻璃碎裂或被咬过的食物。这个论点的核心是:这些是训练数据问题,而不是架构问题。

Runway(GWM-1、Gen-4.5)、Kuaishou(Kling)以及 ByteDance 和中文实验室生态(Seedance、Hailuo)大体上持相同立场。Google 的 Veo 3 与之相邻;Veo 对涌现出的 physics understanding 确有主张,而 Genie 3 则明确建立在 Veo 之上。各实验室侧重点不同,但共享核心承诺:在足够大的数据集上训练足够大的 generative video model,你就能得到一个足以作为下游 physical AI 基础的系统,用来很好地建模世界。

在反驳之前,值得先替它做最强论证,因为它最强的版本并不是“像素就是目标”。而是说 prediction 是普适目标,而 video 是我们对物理世界拥有的最稠密的数据信号。如果你能准确预测视频的下一帧,那你一定学到了一些关于 physics、object permanence、lighting、material properties 和 agent behavior 的东西,因为这些因素都会约束下一帧能是什么样。按照这种观点,video generation 不是产品本身。它是一个训练目标,碰巧会产出可观看的 artifact。视频只是学习的副产物。

这里面确实有一些道理。Sora 的确学到了一些关于 3D 结构和运动的东西。它的输出呈现出一些规律,要求模型在不同视角之间以及跨时间地内化一致性。对更小的 diffusion models 的 interpretability 文献表明,几何、深度和 motion 的可线性解码表示会在模型内部激活中涌现,如果 Sora 没有某种版本的这些表示,反而会令人意外。

问题在于,“拥有一些 physics 表示”与“可以作为 world simulator 使用”之间存在鸿沟。这道鸿沟体现在三个地方。

第一,交互性。Sora 不接受动作作为输入。你可以用文本 prompt 提示它,但文本 prompt 不是 intervention;它只是对某个场景的描述。要把 Sora 变成 action-conditioned 的东西,你必须训练模型在每个 timestep 接受一个控制信号,并生成随之而来的下一帧。这正是 Genie 3 在做的事情,也正因如此,尽管 Sora 的体量更大、生成的视频更高保真,Genie 3 才是 world model,而 Sora 不是。交互性不是一个可以后加的特性。它是一种不同的训练目标,会产生不同的模型。

第二,评估。Video model 的评分指标是 FVD、FID、审美质量、用户研究。这些指标告诉你视频看起来有多好,却几乎不能说明模型是否正确预测了物理后果。前面提到的 2024 年论文专门构建了一个受控测试来衡量物理预测:一个受经典力学支配的二维模拟器,并且可以获得无限训练数据。训练在这组数据上的 diffusion video model 表现出完美的分布内泛化、可测但不完美的组合泛化,以及完全的分布外失败。当被要求预测一个新的特征组合时,模型优先考虑颜色,再是形状,再是大小,再是速度。这个优先级与 physics 毫无关系,只与像素统计有关。这并不是在把 video generation 作为创意工具进行谴责。但把它当作 world simulation 来看,这确实是一个致命结果。

第三,也是与 scale 论点最相关的一点:那篇论文显示,更多数据并没有弥补差距。Scale 只是带来了更紧的分布内拟合,而不是更好的分布外外推。模型只是更精确地对训练集做了 case matching,而不是推断底层定律。如果“scale 会弥补差距”这个论点是对的,我们就应该看到 OOD 表现随 scale 提升而改善。但至少在他们测试的范围内,没有发生。

LeCun 对 Sora 发布的回应,像任何人一样精准地抓住了这种不对称性:“从 prompt 生成大体上逼真的视频,并不意味着系统理解物理世界。生成与来自 world model 的因果预测非常不同。可行视频的空间极大,而一个 video generation system 只需生成一个样本就算成功。”

这就是这种不对称性。World model 必须生成与实际发生的事情相符的预测。Video generation model 只需要生成看起来合理的预测。后者的 hypothesis space 远远更大,而优化 plausibility 并不会强迫模型正确。它只会强迫模型看起来可信。

Video generation 是一种真实技术,也有真实用途。在视频模型上做大规模训练,或许确实会产出可作为真正 world model 良好初始化的表示。但截至本文写作时,这些视频模型本身并不是技术意义上的 world model,把它们当成 world model,已经让这个领域在清晰度上付出了代价。

阵营 2:空间智能与 3D 场景生成

World Labs 是这里的旗手。Fei-Fei Li 的论点,在她 2025 年关于 spatial intelligence 的宣言里说得很清楚:真正的 intelligence 扎根于对 3D 空间的理解(东西在哪里、如何运动、它们提供什么 affordance),而当前一代语言和图像模型之所以根本受限,是因为它们操作的是 3D 世界的 2D 投影。如果语言模型教机器读写,那么空间智能模型就应该教它们看和构建。他们的第一款产品 Marble,能从文本、图像、视频或 3D layout 生成并编辑持久的 3D 环境。它可以导出为 Gaussian splats 和 mesh。它是真实产品,也有真实用户。

这是一个严肃的押注,而且我需要精确说明为什么我把它与真正的 world model 分开。

Marble 产生的核心对象是一个 3D 场景,而不是一个动力系统。你可以在场景里走动,旋转相机,把它导出成 mesh。你不能对它施加动作并看着它演化。如果你在 Marble 环境里扔一个球,不会发生任何事,因为 Marble 并不建模“会发生什么”。Marble 给你的持久性是空间上的(你转身时墙还在那里),不是时间上的(咖啡还在变冷)。这两个维度是不同的。

这不是 World Labs 正在急着弥补的缺口,而是一个设计选择。他们自己的文字把 interactive dynamics 视为未来方向,而不是当前产品。他们首先攻克的是空间问题,理由很合理:如果没有扎实的 3D grounding,你就无法构建 world model,而且 3D 本身就是一个尚未解决、值得单独解决的问题。

从空间生成走向 action-conditioned world modeling 的路径是否笔直,这是一个开放问题。也许是。生成一个物理上合理的 3D 场景,一个物体能落在表面上、光照具有几何意义、遮挡能正确消解的场景,会要求模型内化大量关于物理世界如何构成的知识。如果你再在上面加一个 physics engine,或者训练第二个模型根据动作预测场景如何演化,那么你也许会在另一端得到一个 world model。World Labs 看起来正朝这个方向移动。

但 spatial intelligence 和 world modeling 不是同一个问题,哪怕一家公司的两条线都在做这件事,也值得把这一区分保持清晰。你可以拥有出色的 3D generation,而没有 world model(今天的 Marble)。你也可以拥有 world model,而没有显式的 3D scene reconstruction(这篇文章剩下的大多数内容)。二者也许会收敛,但还没有。

阵营 3:生成式 World Model

这是自 2023 年以来最有意思的主战场。Generative world models 认领了完整的经典图景:它们把动作作为输入,预测未来状态,把这些状态再渲染回像素或 token,以便人类或 Agent 观察,并且通过闭环支持随时间展开的 rollout。它们看起来就像你听到“world model”时脑海里想到的那种东西。

现代谱系是 Ha 和 Schmidhuber 2018、DreamerV2(2020)、IRIS(2022)、GAIA-1(2023)、DIAMOND(2024)、Genie 2 和 3(2024 到 2025)、GAIA-2(2025)、Dreamer 4(2025)。细节各不相同,但配方一致。用 encoder 把原始 observation 压缩到 latent space。根据 action 预测下一个 latent。需要给人看时,再解码回像素;或者喂给基于视觉的 Agent。通过产生未来分布而不是点估计来处理随机性。

架构选择很重要,而且一直在变化。早期工作使用离散 token 和 autoregressive transformer(IRIS、Genie 1、GAIA-1),它们继承了 language modeling 的 scaling laws,并通过 token-level sampling 自然地处理多模态未来。后来的工作转向 diffusion(DIAMOND、GAIA-2),它能生成更高保真的输出,并通过从噪声去噪而不是从 categorical distribution 采样来处理多模态未来。Dreamer 4 引入了一种叫做 “shortcut forcing” 的训练目标,这是一个 flow-matching 扩展,使模型能够只用 4 步就生成干净输出,而不是 diffusion 常见的 64 步,从而使单 GPU 上的实时推理成为可能。Genie 3 更接近最初的 Genie 配方:一个时空 VQ-VAE tokenizer,上面叠加 autoregressive transformer,并将其推到实时交互和多分钟一致性。到目前为止,还没有统一的架构。

这个阵营里最好的工作确实令人印象深刻。Dreamer 4 是第一个仅从离线数据中在 Minecraft 里收集到钻石的 Agent:训练期间没有环境交互,每个 episode 超过两万次动作,用的数据比 OpenAI 的 VPT Agent 少一百倍。World model 足够准确,以至于在其内部进行 reinforcement learning 所得到的策略可以迁移到真实游戏。Ha 和 Schmidhuber 的论点在大规模上得以奏效,Agent 在自己的梦中学习,而这项任务难到很多人早就把这条路线放弃了。

Genie 3 展示了实时交互式生成新环境的能力,分辨率达到 720p、24 帧每秒,并且一致性可以维持数分钟。向一堵墙走去,墙会停留在该在的位置。转身离开一棵树,回头时它还在那里。这种跨视角的稳定性,多年来在 world model 研究里一直处于“几乎能工作”的状态。

Wayve 的 GAIA-2 生成多摄像头驾驶场景,并对 ego-vehicle dynamics、agent behavior 和 environmental factors 提供细粒度控制。这类有针对性的场景生成服务于 closed-loop AV validation,也就是那些无法从真实道路收集足够多的长尾情形,比如突然并线、紧急刹车、行人从路沿走下来的场景。GAIA-2 可以按需生成它们。

这三者都是正在工作的系统,已经在生产中或接近生产中使用。当我谈到我认真看待的 world models 时,我指的就是这个类别。

我对 generative world models 的疑问,和我对 video models 的疑问是同一个,只是换了个语境。Dreamer 4 在 Minecraft 里拿到钻石时,它学到了什么?它是学到了 Minecraft 的游戏机制、block lattice、制作规则、敌人行为,以及一种可以泛化到一个它从未见过的、被修改过的 Minecraft 的形式吗?还是它只是学到了对训练于 2,500 小时人类游戏数据上的良好插值?论文对泛化作出了一些主张,而且这个仅离线的结果确实引人注目,但根本问题仍然悬而未决。

同样的问题也适用于 Genie 3。它生成的环境看起来符合物理规律。它在遮挡后保持 object permanence。它知道玻璃会碎吗,还是它只知道“玻璃碎裂视频”在训练集中通常跟在“玻璃掉落视频”后面?没人知道答案。回答这个问题所需的 interpretability 工作,还没有在这些模型的规模上完成,在那之前,关于这些系统学到了多少 physics 的判断,某种程度上仍然带有审美色彩。

我对这个阵营的看法是:它正在产出这个领域里最炫目的演示,这些演示并不虚假(模型确实在做它们声称的事情),而关于它们是学到了 physics 还是学到了复杂模式匹配的科学问题,仍然开放。如果它们学到了 physics,这就是赢家路线。如果它们学到的是模式匹配,那么它们会撞上一堵 scale 也无法打破的天花板。现有证据与这两种结果都相容。

让我转向怀疑、并转向下一个阵营的,是 LeCun 多年来一直在强调的一种信息论反对意见。我认为这被低估了。

阵营 4:Latent-Space World Model 和 JEPA

反对像素预测的理由,不是它不起作用,而是它把算力浪费在了错误的地方。

想想一个 diffusion video model 在最小化什么:预测的 pixel distribution 与真实下一帧 pixel distribution 之间的某种距离(L2、perceptual,随便什么)。模型因任何像素出错都会受罚。但视频中的大多数像素,要么跨帧不变,要么在细节上不可预测(风中树叶的确切图案、地毯的精确纹理、池塘上的随机涟漪),要么只与场景的语义内容有极弱联系。模型把巨大的算力花在把这些不可预测细节正确渲染出来上,因为损失函数要求它这么做。

LeCun 的表述是这样的:“The world is unpredictable. If you try to build a generative model that predicts every detail of the future, it will fail.” 更准确地说,它不会在训练数据上失败。它会在统计意义上把不可预测的细节预测得像样,生成看起来合理的地毯纹理。只是它并没有因为这件事学到任何关于 physics、causality 或 planning 的有用东西。地毯纹理是噪声。模型把算力花在拟合噪声上。

替代方案是在 representation space 中预测。不要让模型预测像素,而是让它预测下一次 observation 的 representation。训练一个单独的 encoder,把未来帧输入进去并生成 embedding。训练一个 predictor,在给定过去和动作的情况下预测这个 embedding。损失是在 embedding space 中的距离,而不是 pixel space 中的距离。地毯纹理在 pixel space 里高熵,但在设计良好的 embedding 中会坍缩成一个低熵向量。模型可以忽略它,把注意力放在变化的东西上:运动、交互、因果结构。

这就是 Joint Embedding Predictive Architecture,简称 JEPA。LeCun 在 2022 年的立场论文 A Path Towards Autonomous Machine Intelligence 中引入了它,完整读下来是值得的。那篇论文是一份六十页的 manifesto,覆盖了他对 autonomous systems 的全部愿景:设定目标的 configurator、预测后果的 world model、选择动作的 actor、评估结果的 critic,以及多时间尺度上的抽象层级。JEPA 是核心,因为它是当时还没有现成实现的那个组件。

最早真正工作的实例是 I-JEPA(图像,2023)和 V-JEPA(视频,2024),都来自 Meta 的 FAIR lab。2025 年 6 月发布的 V-JEPA 2,是我认为迄今为止最强的证据,表明这一方法不仅理论优雅,而且实际具有竞争力。

V-JEPA 2 以自监督 masked prediction objective 在一百万小时以上的互联网视频上进行预训练。没有标签,没有文本。模型学习在由第二个 encoder 产生的抽象 embedding space 中,根据 context patches 去预测被 mask 掉的 spatiotemporal patches 的 representation,而这个第二个 encoder 通过 exponential moving average 更新。这就是 JEPA 的基本设定:context encoder、target encoder、predictor、representation space 中的距离损失、通过 teacher-student asymmetry 防止 collapse。

预训练之后,这个模型在一系列 benchmark 上具有竞争力,甚至达到 state-of-the-art。它在 Something-Something v2 上做 motion understanding,在 Epic-Kitchens-100 上做人类 action anticipation,在与 LLM 对齐后还能做 video question answering。所有这些都不需要模型生成像素。representation 本身被下游头部使用,其中包含了足够多关于运动、物体和物理的信息,足以支持强任务表现。

真正让人注意的是 robotics 结果。Meta 只用 DROID 数据集里 62 小时的无标签机器人视频,对冻结的 encoder 上方加了一个 action-conditioned predictor,对 V-JEPA 2 进行了微调。这产生了 V-JEPA 2-AC,并在两个从未向 DROID 贡献过数据的实验室里的 Franka 机械臂上做了 zero-shot 部署。系统给定一个目标图像并要求规划。它利用模型去预测想象中未来状态的 representation,用 cross-entropy method 搜索能最小化预测 representation 与目标 representation 距离的动作,执行第一个动作,从新的 observation 重新规划,并反复迭代。

它成功了。在未见过的环境里对新物体进行 pick-and-place,成功率 65% 到 80%,没有 task-specific training。规划循环每一步大约运行 16 秒;基于 Cosmos 的 pixel-space baseline 在同一任务上每一步大约要 4 分钟。大约快了十六倍。

数据效率是最核心的数字。62 小时并不算少,但与行为克隆方法消耗的数十万小时遥操作数据相比,它几乎不算什么;与互联网规模的 pixel-space world models 相比,它也几乎不算什么。JEPA 的论点不是它能生成更漂亮的输出,而是如果你的 representation 做对了工作,你就不需要那么多下游数据也能获得足够胜任的行为。

这正是 AMI Labs 正在押注的方向,而且越来越多学术实验室也在这么押注,最近的一些理论工作进一步帮助了它。LeJEPA 发表在 2025 年 11 月,它用显式的 distribution-matching regularization 取代了 EMA-teacher 启发式方法,并声称提供了一种数学上更有原则的方式来训练这些架构,而不用通常那一堆技巧。

这是我最被说服的阵营。我的理由如下:

这个 objective 在认识论上是正确的。Intelligence 关乎预测重要的东西。像素预测把“重要的东西”和“视觉上出现了什么”混在了一起。Representation-space prediction 让系统通过 encoder 的学习动态来决定什么值得保留、什么是噪声。这与我们对生物视觉的认识一致:初级视觉皮层所做的事情,看起来更像是对有意义特征的 predictive encoding,而不是像素级重建。

数据效率的论点是经验性的,而不只是理论性的。V-JEPA 2 用 62 小时微调就能 zero-shot 做 robotics,这种结果在两年前会让人觉得不太可能。是的,这只是一个数据点,不能从单个实验室的结果过度外推。但这是正确类型的数据点,是如果理论成立我们本来就该预期会看到的行为。

这种方法与 autonomous systems 的更大架构是兼容的。LeCun 2022 年的愿景(configurator、perceptor、world model、actor、critic、多层级抽象)需要一个在 latent space 中运行的 world model,因为在多个时间抽象层级上对 pixel-space rollout 做规划,在计算上不可行。你不可能在 pixel space 里做 hierarchical planning。如果长期目标是 autonomous machine intelligence,那么 JEPA 就是你需要的那个组件。

我认真对待的反驳是这些:

JEPA 很难评估,也很难迭代。生成像素时,你可以看输出,判断它是否合理。预测 embedding 时,你做不到。你是在调试一个标量损失和一些下游任务指标,而没有人类可解释的中间产物。这对迭代速度很重要,而这在现代 ML 中极其重要。生成阵营的迭代优势不是理论上的;这也是他们更快上线的真实原因。

Collapse 是一个真实问题。朴素的 JEPA objective 有一个平凡解:对每个输入都输出同一个 embedding,loss 变成 0,表示就没用了。每个 JEPA 变体都需要某种 anti-collapse 机制(EMA teacher、VICReg、stop-gradient、LeJEPA 的 distribution matching),而这些机制都很脆弱。关于它们为什么有效的理论理解仍在发展中。这确实拖累了这个方法。

JEPA 在大规模上的存在性证明,比生成式 world model 要薄。V-JEPA 2 很惊艳,但它只是一个实验室的一个模型。Dreamer 4、Genie 3、GAIA-2 都已经在大规模上交付结果,别的实验室也在复现。生成阵营积累的路程更多。这并不能证明他们会赢,但这确实是数据。

“像素是浪费的”这个论点也许没有看起来那么强。现代生成模型并不会同等拟合每个像素。Diffusion models 学习多尺度表示;autoregressive transformer 会压缩视觉 token。经过足够训练之后,其有效 objective 可能更接近于预测图像中可预测的部分,而不是 naive loss 所暗示的那样。如果那是真的,那么针对像素预测的信息论反对会比 LeCun 所说的更弱。我的直觉仍然认为 LeCun 在这一点上是对的,但时间会给出答案。

综合来看:对我来说,JEPA 是最符合思想的押注,也是一项最难兑现的押注。它是我预期长期最重要进展会来自的地方,而如果接下来两年里上线的产品更多地来自生成式阵营,我也不会感到意外。研究时间线并不总与部署时间线一致。

JEPA 阵营目前还没有公开做过、但接下来必须要做的一件事,是把 Agent loop 闭合起来。V-JEPA 2 展示了短时程 manipulation 的 planning,但还没有展示 extended behavior、online learning,或者 Dreamer 4 在 Minecraft 中展示的那种持续任务表现。AMI Labs 显然正在做这件事。直到它落地之前,生成阵营仍然拥有更强的端到端演示,即便 latent 阵营拥有更强的理论叙事。

阵营 5:基础设施与正交范式

这个阵营里有两件事,原因不同。

NVIDIA Cosmos 是一个基础设施项目。它在 CES 2025 发布,是一个平台而不是单个模型:一个 video data curation pipeline(据称可在 Blackwell 上 14 天处理 2,000 万小时视频)、一系列 open-weight world foundation models(Cosmos Predict、Cosmos Transfer、Cosmos Reason)、一个 tokenizer,以及 fine-tuning 工具。这些 WFM 本身分为两类架构,基于 diffusion 和基于 autoregressive,训练数据来自 2,000 万小时真实世界视频,涵盖驾驶、工业和 robotics 数据,总计 9,000 万亿 token。

Cosmos 的目标不是成为最好的 world model。它要成为别人构建 world model 的平台。Jensen Huang 在 CES 上的表述非常明确:机器人领域的 ChatGPT 时刻即将到来,而 Cosmos 是那个旨在推动 physical AI 民主化的基础设施层。早期采用者包括 1X、Agility、Figure、Skild、Waabi 和 Uber。这个押注是:无论谁来构建 world models,也无论他们采用什么架构,都会需要海量整理过的 synthetic data,而 NVIDIA 应该成为这些数据和生成它们所需 GPU 的供应商。

从技术意义上说,Cosmos 不是 world model,而 NVIDIA 其实也并不真的这么说;他们称它为 world foundation models 的平台。但它是这个格局中重要的一部分,因为它是其他实验室真正完成工作的地方。V-JEPA 2 在 robotics 评估中把 Cosmos 作为 baseline。许多生成式 world model 实验室也会在自己的 stack 某处使用 Cosmos 组件。如果你要在这个领域里做事,却没有考虑 NVIDIA 提供了什么,那你就漏掉了一半图景。

这个阵营里的第二件事是 active inference,它与 Karl Friston 的 free-energy principle 相关,并在 VERSES 商业化。我把它标出来,不是因为我认为它会赢,而是因为它是这个空间里最连贯的非深度学习替代方案,如果忽略它,taxonomy 就会少一块。

Active inference 是一个来自 computational neuroscience 的理论。其主张是:生物系统通过最小化 variational free energy 来行动,这个量上界了它们经历的 surprise。Agent 不是最大化 reward,而是试图最小化其预测与 observation 之间的差距,要么通过更新模型(perception),要么通过行动使 observation 与预测相匹配(action)。目标被表示为 prior preferences;exploration 会自然出现,因为消解不确定性会降低 expected free energy。VERSES 在这个基础上构建了 AXIOM:一个结构化 generative model,其中每个实体都是带类型属性和关系的离散对象,通过 Bayesian message passing 而不是 gradient descent 进行 inference。它是可解释的,也很省数据。它是否能像 transformer 那样扩展,仍是开放问题,而 active inference 社群在十多年里都没有产生接近 V-JEPA 2、Dreamer 4 或 Genie 3 的实证影响。但这个概念上的清晰性是真的,如果深度学习碰壁,这里会是领域可能会去看的地方之一。

我把它放在这里,是为了让 taxonomy 完整,而不是为了下注。

五个阵营并排看

先用一个表格总结 taxonomy,然后继续往下:

Image

最重要的两列是:Action-conditioned? 用来区分什么才是 world model,什么只是带有雄心名称的别的东西;Predicts in 则把这个领域真正的两大哲学部落分开了:一边相信渲染像素是必要的,另一边相信渲染像素是有害的。

第四部分:梦中的 Agent

World models 是底层。它们不是产品。

产品是一个能做有用事情的 Agent:开车、叠衣服、在仓库中导航、玩游戏、操作无人机。世界模型领域里几乎每个实验室最终都在尝试为 Agent 构建训练环境或 planning substrate,而不是一个独立的 world-generation 产品。这一点从新闻稿里不明显,因为视频比机器人更好看。但翻看论文,Agent loop 总是目的地。

把 world model 接到 Agent 上主要有三种方式,而实验室选择哪一种,能告诉你它们究竟在押什么。

在 world model 内部通过 reinforcement learning in imagination 训练 Agent。这就是 Dreamer 谱系:Hafner 从 2019 年到 2025 年的系列工作,直到 Dreamer 4。Agent 完全从 learned world model 内部的 rollouts 中学习 policy,训练期间从不接触真实环境。这就是 Ha 和 Schmidhuber 2018 年最初提出的方式。它是“Agent 做梦”这一论点最干净的实现。当 world model 足够准确,以至于在其中优化得到的 policy 可以迁移到真实世界时,它就有效。Dreamer 4 在 Minecraft 中拿到钻石的结果,是当前的最高点。据报道,Hafner 和 Wilson Yan 正在为一家新公司 Embo 融资,以将这一方法商业化,大概是为了 robotics。

把 world model 当作推理时的 planning oracle。这是 V-JEPA 2 的方法。world model 不用于离线训练 policy,而是在在线、动作选择期间使用,用来预测候选 action sequence 的后果,并选择最好的那个。用 learned dynamics model 做 model-predictive control。某些方面这更简单,因为你不需要担心 policy transfer 问题,但它把更大的负担放在了 world model 的准确性和搜索算法上。V-JEPA 2-AC 在短 action sequence 上使用 cross-entropy method。更早的工作使用过 shooting methods 或 trajectory optimization。

完全跳过 world model,直接用经验训练 Agent。这是 VLA(Vision-Language-Action)阵营。Physical Intelligence 的 π 系列、Google DeepMind 的 RT-2、Figure 的 Helix,以及当前大多数 robotics foundation models 都是如此。论点是:我们没有足够好的 world model,可以在开放式操作任务中依赖它们做 sim-to-real transfer;但我们确实有足够多的真实世界遥操作和第一人称视频数据,可以直接训练 policy。VLA 是务实的。它继承了 LLM 世界中的 scaling laws 和基础设施。它们确实有效。Physical Intelligence 在过去一年里从 π0 到 π0.5、π0.6、π*0.6,再到其带 memory 的后续版本,发布节奏稳定地朝着真实机器人上的商业可行性迈进,而且在“机器人现在到底能做什么”这个窄指标上,它们已经比 world model 阵营走得更远。

这些方法之间的张力是真实且有建设性的。Dreamer 和 JEPA 阵营相信,学习 dynamics 值得投入,因为它能解锁 VLA 做不到的东西:counterfactual reasoning、long-horizon planning、对分布外任务的数据效率。VLA 阵营相信,在足够多真实数据上端到端训练,永远会比通过一个学到的模型来训练更强,因为模型会引入累积近似误差,而真实数据不会说谎。这种分歧是经验性的,问题在于哪一方的直觉能更广泛地泛化。

这正是 Pete Florence 最近在 Generalist 发的帖子值得认真关注的地方。Generalist 是一家 robotics foundation model 公司,其创始团队包括来自 OpenAI、Google DeepMind 和 Boston Dynamics 的工程师。他们 2026 年 4 月的模型 GEN-1 在多个 dexterous manipulation benchmark 上是 state-of-the-art。Florence 帖子有意思的地方不在模型本身,而在于他明确拒绝了这篇文章中的两个标签。

“GEN-1 既不是一个微调过、再外挂 robot actions 的 vision-language model,也不只是一个 world model。它是一个一等公民、原生的 physical interaction foundation model……World models 在 2026 年初迎来了自己的时刻。VLA 在 2023 到 2025 年迎来了它们的时刻。跟风本就是学术研究的一部分。在 Generalist,我们从未把自己的模型称作 VLA 或 world model。这不是偶然。”

他的论点值得按其本身的逻辑来回应。Florence 区分了 goal-driven 研究和 idea-driven 研究:前者是先选定一个具体结果,再解决挡在前面的所有问题;后者是先选定一种方法,再跟随它的推演。他把当前 world-model discourse 坚定地归入 idea-driven 类别,并认为这是一个干扰。对 Generalist 来说,目标是以高成功率实现完全 zero-shot 的 robotics。无论是什么架构选择能把他们带到那里——VLA 风格、world-model 风格,还是别的新东西——都只是工具,不是部落。

Florence 在社会学层面上是对的。大多数关于“world model 还是 VLA”的讨论都属于 idea-driven。实验室会部分基于审美偏好选边,然后在内部继续优化,这些阵营的分化程度远大于底层技术问题本身应有的程度。明年很可能会出现一波混合架构:带 VLA 风格 action head 的 world models、带 latent prediction objectives 的 VLA、以 LLM 为 backbone 并带生成式 world-model rollout 组件的系统。Generalist 那种忽略标签、只训练有效东西的做法,可能更接近 2027 和 2028 年生产系统最终的样子。

但我认为 Florence 说得有点过于干净了。类别并不完美,但也不是空的。是否学习 dynamics 是一个真实问题。是在 pixel space 还是 representation space 里预测,也是一个真实问题。把语言当成一等公民还是把视频当成一等公民,也是一个真实问题。你可以拒绝标签,同时仍然对这些问题给出答案,而 Generalist 显然就是这样:他们从零开始用 physical interaction data 训练,不把 pixel-space video generation 当作核心 objective,他们使用 action conditioning。标签是技术承诺的简写。拒绝简写,并不意味着你可以免于这些底层承诺。

第五部分:我的立场

我来说明我的结论,以及我会观察什么来判断自己是否错了。

我押注的阵营是 representation-space 阵营。JEPA 及其后代在我看来是对的,原因既有我能说清的,也有我无法完全说清的。

说得清的理由就是第三部分里的那些:objective 在认识论上正确,数据效率结果的形状正确,而且这种方法与我认为最终需要的 autonomous intelligence 架构相兼容。更难以表述的理由是,每当我读生成式 world model 的论文时,总觉得有某些东西被轻描淡写地略过了。模型确实产生了漂亮的输出,但“产生漂亮输出”与“理解了物理世界”之间的鸿沟并没有被填上,而论文有时似乎并没有注意到这个鸿沟。当我读 JEPA / latent space 相关论文时,作者看起来知道这个鸿沟的存在,并且在围绕它设计。这可能只是我的偏见。我把它标成偏见。

这并不意味着生成阵营是错的,也不意味着他们的结果不重要。Dreamer 4 是过去一年里最强的 Agent 训练结果。Genie 3 是最强的交互式 world-generation 结果。GAIA-2 是最强的特定领域 world model。这些都是真实系统,做着真实的事情。如果它们继续扩展,如果 scale 解决了 OOD 泛化问题,如果更长的 rollout 仍然保持一致,如果“模式匹配 vs 物理”这个问题最终倾向于 physics,那么生成式路线就会被证明是对的,而我会在基本瓶颈问题上判断错误。

接下来十八个月里我会观察这些:

JEPA 是否能令人信服地闭合 Agent loop。V-JEPA 2 展示了 planning。它还没有展示 extended behavior、online learning,或者 open-ended task performance。如果 JEPA 阵营能展示出与 Dreamer 4 的 Minecraft 结果同量级的东西——一个完全从 representation-space rollout 中解决困难长时程任务的 Agent——那证据的天平会明显倾斜。AMI Labs 有团队和 runway 去做这件事。我预计会在 2026 年底或 2027 年初看到他们的首批重大结果。

Video model 是否能展示 out-of-distribution physics。前面引用的 2024 年论文显示,在他们测试的范围内,scale 并没有带来 OOD 泛化。要么有人把 scale 推过那个范围并打破这一模式,要么没有。如果打破了,生成阵营的论点会强得多;如果没有,它就会变弱。我们很快就会知道。OpenAI 和 Google 都有强烈理由去制作并发布对自己视频模型的 physics-focused evaluations,而整个领域都在看。

混合方法是否会占主导。我的先验是,五年后,最重要的 world models 不会整齐地属于任何一个阵营。它们大概会像带生成式 rollout heads 的 JEPA 式表示,或者带 JEPA 式辅助目标的生成式 world models,或者一些我现在还无法预料的别的东西。今天这些纯粹阵营的价值,在于帮助我们思考设计空间;但它们未必就是赢家的形状。

机器人公司是否会绕过 world models。Generalist、Physical Intelligence、Skild 以及其余 VLA 阵营,押的是:只要用足够多真实世界交互数据训练,就可以跳过 world modeling。如果他们是对的,world models 也许会被记成一条绕路,而不是一条路径。我个人不相信会这样。我也认为,对于人类关心的长尾任务,“足够多”的真实世界交互数据,会比这些公司当前拥有的多得多,而且他们碰到的 scaling wall 看起来会更像“我们需要显式建模 dynamics”,而不是“更多数据能解决”。但我对这个观点的把握并不强。

是否会有当前 taxonomy 之外的人让所有人惊讶。Active inference 是显而易见的候选。Friston 的社区在 deep learning 出现之前就已经研究这个方向很久了,如果 deep learning 的方法碰壁,要替代它们的概念库存早就存在。我不会押 active inference。我也不会在五年的时间窗口里押“某种非显而易见的东西不会出现”。这个领域还年轻到足以说明,赢家路线可能还没有名字。

如果一定要我明确表态:我认为 representation / latent space 阵营是对的。不是出于审美,而是出于学习问题本身的性质。Intelligence 关乎预测重要的东西,而像素不是重要的东西。生成式实验室今天在做更炫目的演示,而且它们可能还会继续这样一段时间,因为 pixel-space 系统更容易展示,也更容易迭代。但一个系统是否理解世界,取决于它的表示,而不是它的输出;而 latent space 阵营正是认真对待这个问题的那一边。

V-JEPA 2 是我们迄今为止最清晰的存在性证明。62 小时机器人数据、对新实验室的 zero-shot 迁移、latent space 中的 planning、比 pixel-space baseline 快十六倍的推理。这就是在理论正确时理论应该预测会发生的事情。一个数据点,一个正确类型的数据点。

再补一个值得标记的数据点,因为它是一个面向 safety-critical use case 的生产系统,而不是实验室 benchmark:Nexar 的 BADAS 2.0,于 2026 年 4 月发布,是一个建立在微调过的 V-JEPA 2 backbone 上的碰撞预测模型。它部署在 Nexar 的 35 万个 dashcam 车队上,训练数据大约来自 2 亿英里驾驶中抽取的 200 万个真实碰撞风险事件。最核心的数据是平均精度 99.4% 和 91% 的早期预警召回率,而与这篇文章最相关的对比,是它在同一任务上与 NVIDIA Cosmos 的对比:BADAS 2.0 以大约少 91 倍的参数量,超过了一个 20 亿参数的 pixel-space foundation model。Nexar 团队自己的表述,正是第四阵营的论点:在 latent space 中预测,优化的是物理因果而不是视觉保真度,而当下游任务是“会不会撞上”时,这正是你想要的。它是一个窄场景,而且单一部署并不能终结争论。但这是那种能说明 JEPA 方法在学术基准之外也有效、而且是在误报和漏报都有真实后果的任务上有效的结果。

我对 AMI Labs 保持真正的期待。如果他们能令人信服地闭合 Agent loop,如果下一代 V-JEPA 的扩展方式与前两代一样,如果数据效率的故事在下一个数量级上依然成立,那么这个判断会在两年内从“有暗示”变成“决定性”。如果没有,我也想知道;我已经尽量把自己的立场做成了可证伪的。无论哪种结果,接下来这段时间都会是这个领域最有意思的部分。

最后说一句关于这个术语本身的话。“world model”会比这个过度使用的时刻活得更久,而且它也应该如此。其底层思想——intelligence 需要一个内部模型来表示当你对世界施加动作时世界如何变化——是 AI 里的深层思想之一,而且它连接着比 deep learning 更早的传统:cybernetics、control theory、神经科学中的 predictive coding。这篇文章涉及的这些实验室,对模型应该表示什么、应该怎样训练有分歧。但它们都认同问题的形状。把问题问对,本身已经完成了大部分工作。接下来几年里,看它如何被回答,是我最期待的部分。

就这样。

延伸阅读

如果让我打包一份阅读清单,我会选这些论文。每组内部按大致时间顺序排列。

起源

现代复兴

  • Ha 和 Schmidhuber, World Models (2018)。让这个术语流行起来的 NeurIPS 论文,附带一个标志性的交互式网页版本
  • Hafner et al., DreamerV2(2020)和 DreamerV3(2023)。在它成为大规模故事之前的 RL-in-imagination 谱系。

生成式 World Model

  • Micheli, Alonso, Fleuret, Transformers are Sample-Efficient World Models(IRIS,2022)。面向 Atari 的基于 autoregressive token 的 world modeling。
  • Hu et al., GAIA-1(2023)和 GAIA-2(2025)。Wayve 为自动驾驶构建的生成式 world models。GAIA-2 技术报告
  • Alonso et al., DIAMOND(2024)。基于 diffusion 的 world modeling。后续许多开源工作都建立在这一架构之上。
  • DeepMind, Genie 2(2024)和 Genie 3(2025)。交互式生成式 world models。Genie 3 公告
  • Hafner, Yan, Lillicrap, Training Agents Inside of Scalable World Models(Dreamer 4,2025)。第一个离线 Minecraft 钻石结果。arXiv

Latent 和 representation-space world models

  • LeCun, A Path Towards Autonomous Machine Intelligence (2022)。立场论文。很长,很有主见,值得完整阅读。OpenReview
  • Assran et al., I-JEPA(2023)。第一个可工作的 JEPA 实例。
  • Bardes et al., V-JEPA(2024)和 V-JEPA 2(2025)。Video JEPA 和 zero-shot robot planning。V-JEPA 2 论文
  • Balestriero et al., LeJEPA(2025)。可证明且可扩展的 self-supervised learning,无需那些启发式技巧。
  • Nexar, BADAS: Context Aware Collision Prediction Using Real-World Dashcam Data(2025)。面向汽车安全的生产级 V-JEPA 2 部署。论文

将 Video Generation 视为“World Simulation”

空间智能与 3D

  • World Labs, Marble(2025)。持久 3D 场景生成。
  • Mildenhall et al., NeRF(2020)和 Kerbl et al., 3D Gaussian Splatting(2023)。Marble 所建立其上的 neural 3D representation 谱系。

物理 AI 基础设施

  • NVIDIA, Cosmos World Foundation Model Platform for Physical AI(2025)。技术报告

Agent 架构与“拒绝标签”案例

  • 原文链接: x.com/abdelstark/status/...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
abdelstark
abdelstark
江湖只有他的大名,没有他的介绍。