惠州PVC管件胶厂家英伟达Jim Fan：「世界建模」是新代预训练范式

80 | 2026-02-14 11:04:16

继"下个词预测"之后惠州PVC管件胶厂家，世界建模将成为新的预训练范式。

这是英伟达机器人主管Jim Fan给出的新判断。

他认为，2026 年将成为大世界模型（Large World Models）真正为机器人域以及广义的多模态 AI 奠定基础的年。

谢赛宁随即转发表示赞同："事后看来显而易见"。

在这篇长文中，Jim Fan 讨论了世界模型的定义与应用，尤其聚焦于物理 AI 域的发展，同时展望了新的理形式：

世界建模（world modeling）是在给定个动作的条件下，预测下个理的世界状态（或段长时间范围内的状态）。

当前世界模型的主要炒作集中在 AI 域，而 2026 年将迎来物理 AI 的爆发。

世界模型需要广义的预训练目标：下个世界状态不应只包含 RGB，还须覆盖 3D 运动、本体感觉与触觉。

将出现种新的理形式：在视觉空间中的思维链，而非语言空间中的思维链。

以下为分享全文：

二个预训练范式

下个词预测 ( Next word prediction ) 曾是个预训练范式，而现在我们正在经历二次范式转变：

世界建模（world modeling），或者说"下个物理状态预测"。

很少有人真正理解这转变的远意义。不幸的是，目前世界模型被炒作的应用仍然是 AI （接下来可能是游戏）。

我非常有信心地说：2026 年将成为大世界模型（Large World Models）次为机器人域，以及广义的多模态 AI 奠定真实基础的年。

在这个背景下惠州PVC管件胶厂家，我将世界建模定义为：在给定个动作的条件下，预测下个理的世界状态（或段长时间范围内的状态）。

奥力斯万能胶厂家联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

生成模型是其中的种实现形式，其中"下个状态"是系列 RGB 帧（通常为 8 – 10 秒，长可达数分钟），而"动作"是段描述要执行什么的文本。

训练过程就是对数十亿小时像素的未来变化进行建模。

本质上，世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景（counterfactuals），即预测如果采取不同动作，未来可能会如何不同——这就是理。世界模型从根本上以视觉为中心。

相比之下，VLM 本质上是以语言为中心的。从早的原型（e.g. LLaVA, Liu et al. 2023）开始，整体路径基本致：视觉在编码器处进入，然后被送入语言主干网络。

随着时间移，编码器不断改进，架构变得简洁，视觉试图变得加"原生"（如全模态模型）。

然而，视觉仍然是二等公民，法与域多年构建的 LLM 能力相比。（LLM ) 这条路线便，因为我们熟 LLM 的扩展，架构设计、数据、评测指标（如 VQA）都度优化为语言服务。

对于物理 AI 来说，2025 年以 VLA 为主：在预训练 VLM 上接入机器人动作解码器。

严格来说，它像是 " LVA "：语言 > 视觉 > 动作，等递减。

便是便，但 VLM 中大多数参数用于知识（例如"这团像素是可口可乐"），而不是物理（"如果你倾倒可乐瓶，它会洒成棕水洼，弄脏白桌布，还可能损坏电机"）。

VLA 的设计在知识检索上很强，但物理能力分配不足。多阶段嫁接的设计，也违背我对简洁优雅的偏好。

从生物学角度看，视觉主了我们的皮层计。大约三分之的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。

相比之下，语言依赖于个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的带宽通道。它闭了"感知—运动回路（sensorimotor loop）"——这是机器人需要解决的回路，而且在中间不需要语言。

自然界给了我们个具说服力的例证：灵巧物理智能几乎不依赖语言——猿类。

我见过猿类驾驶尔夫球车，用螺丝刀换刹车片，动作就像人类机械师样。

它们的语言理解能力不过 BERT 或 GPT-1惠州PVC管件胶厂家，万能胶厂家但它们的物理技能远远过我们当前的机器人。

猿类可能没有优秀的语言模型，但它们显然拥有对"如果……会怎样"的稳健心理表征：即对物理世界如何运作、以及在其干预下会如何反应的理解。

世界建模的时代已经到来。

这是带着苦涩教训的时代。正如 Jitendra 常提醒我们这些"扩展成瘾者"：

监督是 AI 研究者的鸦片。

YouTube 的海量和智能眼镜的兴起，将以远文本训练规模的原始视觉流捕捉世界。

我们将看到种新的预训练形式：下个世界状态将不只包含 RGB —— 3D 空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到种新的理形式：在视觉空间中的思维链，而不是语言空间中的思维链。

你可以通过模拟几何关系和接触来解决物理谜题，想象物体如何移动和碰撞，而需将其翻译成字符串。语言是种瓶颈，是种脚手架，而不是基础。

我们将面临系列新的潘多拉盒问题：即便未来模拟，动作该如何解码？

像素重建真的是优目标，还是应该进入其他潜在空间？需要多少机器人数据？远程操作的扩展是否仍然可行？

完成这些之后，我们是否终于迎来机器人域的 GPT-3 时刻？

Ilya 说得没错：AGI 尚未收敛。我们又回到了研究时代，而没有什么比挑战原理让人兴奋的了。

世界模型作为新的范式

总体来看，这篇新文章可以被看作是 Jim Fan 在2025 年机器人年终总结中三点的延伸与展开。

当时，他提出：基于 VLM 的路线，本质上主要服务于语言和知识，而不是物理世界本身。

那时惠州PVC管件胶厂家，他已经把问题说得很直白：

VLM 的参数主要面向语言和知识，而非物理世界。

视觉编码器在训练中会主动丢弃细节，但机器人操作恰恰依赖这些细节。

因此，VLA 并不会随着 VLM 的 scale 自然增强。

而近这篇关于 world modeling（世界建模）的长文，则可以看作是 Jim Fan 对这判断的系统展开与进步思考。

对于他的观点，业内大佬和网友也纷纷表达了看法。

来自 Google DeepMind 的 Genie 3 联负责人、世界模型团队负责人Jack Parker-Holder也在转发分享了他对世界模型应用场景的理解：

世界模型本身就是类全新的基础模型。它们既服务于交互式媒体（模型），也服务于具身 AGI。世界模型是连接虚拟与物理两个域的桥梁，其真正价值在于跨任务、跨域的泛化能力。

换句话说，就像LLM 作为基座模型既能编程又能解数学题样，放到世界模型上，生成与具身操控也可以兼容。

而谷歌、英伟达等玩，也都在虚拟游戏、以及物理机器人域同步布局。

不过，前英伟达机器人研究主管Arsalan Mousavian也提醒：

对于大型世界模型（LWM）来说，这是个非常棒的愿景，但从像素到物理的跃迁仍然很陡峭。

要让世界模型成为可靠的动作生成骨干，还须解决以下问题：

几何致：确保运动学和物体恒常在物理上成立。

同保持：避跨实体的幻觉预测，例如机器人 A 在预测过程中突然变成机器人 B。

理速度：降低实时循环延迟。大型世界模型计量大、延迟，而机器人需要频率响应。

动作采样：世界模型可以预测结果，但我们仍然需要对动作进行采样。

在数据量和计需求上，这目标将使当前的动作策略扩展（action-policy scaling）显得相对温和。

此外，jim fan 提到的视觉理也引发广泛讨论：

理不定非得依赖语言——视觉模拟（几何、接触、运动）本身就能构成理过程。

机器人正是视觉为中心的基础模型大显身手的舞台。2026 将是多模态、多轮交互代理（机器人 /CUA）之年，而这场比赛的胜者，然会在游戏中加重视视觉模态。

猿猴的比喻非常贴切。我们太过痴迷语言，以至于忘记了灵巧的行动能力并不定需要词汇量。2026 年或许是机器人技术终停止依赖语言模型，转而构建原生系统的年。

而除开英伟达、谷歌等巨头在世界模型技术路线的押注外，商业层面也在快速进——

周前，李飞飞创办的 World Labs 正以约 50 亿美元估值进行新轮融资，规模可达 5 亿美元。

而LeCun前段时间创办 AMI Labs（Advanced Machine Intelligence，AMI）也吸引了包括 Cathay Innovation 在内的潜在投资者，传闻其融资估值可能达到 35 亿美元。

参考链接：https://x.com/DrJimFan/status/2018754323141054786

— 欢迎 AI 产品从业者共建 —

� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据出的飞书知识库，旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

键关注 � � 点亮星标

科技前沿进展每日见惠州PVC管件胶厂家

相关词条:铁皮保温塑料挤出机钢绞线玻璃卷毡厂家保温护角专用胶

惠州PVC管件胶厂家 英伟达Jim Fan：「世界建模」是新代预训练范式

惠州PVC管件胶厂家英伟达Jim Fan：「世界建模」是新代预训练范式