
继"下个词预测"之后惠州PVC管件胶厂家,世界建模将成为新的预训练范式。
这是英伟达机器人主管Jim Fan给出的新判断。
他认为,2026 年将成为大世界模型(Large World Models)真正为机器人域以及广义的多模态 AI 奠定基础的年。
谢赛宁随即转发表示赞同:"事后看来显而易见"。
在这篇长文中,Jim Fan 讨论了世界模型的定义与应用,尤其聚焦于物理 AI 域的发展,同时展望了新的理形式:
世界建模(world modeling)是在给定个动作的条件下,预测下个理的世界状态(或段长时间范围内的状态)。
当前世界模型的主要炒作集中在 AI 域,而 2026 年将迎来物理 AI 的爆发。
世界模型需要广义的预训练目标:下个世界状态不应只包含 RGB,还须覆盖 3D 运动、本体感觉与触觉。
将出现种新的理形式:在视觉空间中的思维链,而非语言空间中的思维链。
以下为分享全文:
二个预训练范式
下个词预测 ( Next word prediction ) 曾是个预训练范式,而现在我们正在经历二次范式转变:
世界建模(world modeling),或者说"下个物理状态预测"。
很少有人真正理解这转变的远意义。不幸的是,目前世界模型被炒作的应用仍然是 AI (接下来可能是游戏)。
我非常有信心地说:2026 年将成为大世界模型(Large World Models)次为机器人域,以及广义的多模态 AI 奠定真实基础的年。
在这个背景下惠州PVC管件胶厂家,我将世界建模定义为:在给定个动作的条件下,预测下个理的世界状态(或段长时间范围内的状态)。
奥力斯 万能胶厂家 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
生成模型是其中的种实现形式,其中"下个状态"是系列 RGB 帧(通常为 8 – 10 秒,长可达数分钟),而"动作"是段描述要执行什么的文本。
训练过程就是对数十亿小时像素的未来变化进行建模。
本质上,世界模型就是可学习的物理模拟器和渲染引擎。
它们能够捕捉反事实情景(counterfactuals),即预测如果采取不同动作,未来可能会如何不同——这就是理。世界模型从根本上以视觉为中心。
相比之下,VLM 本质上是以语言为中心的。从早的原型(e.g. LLaVA, Liu et al. 2023)开始,整体路径基本致:视觉在编码器处进入,然后被送入语言主干网络。
随着时间移,编码器不断改进,架构变得简洁,视觉试图变得加"原生"(如全模态模型)。
然而,视觉仍然是二等公民,法与域多年构建的 LLM 能力相比。(LLM ) 这条路线便,因为我们熟 LLM 的扩展,架构设计、数据、评测指标(如 VQA)都度优化为语言服务。
对于物理 AI 来说,2025 年以 VLA 为主:在预训练 VLM 上接入机器人动作解码器。
严格来说,它像是 " LVA ":语言 > 视觉 > 动作,等递减。
便是便,但 VLM 中大多数参数用于知识(例如"这团像素是可口可乐"),而不是物理("如果你倾倒可乐瓶,它会洒成棕水洼,弄脏白桌布,还可能损坏电机")。
VLA 的设计在知识检索上很强,但物理能力分配不足。多阶段嫁接的设计,也违背我对简洁优雅的偏好。
从生物学角度看,视觉主了我们的皮层计。大约三分之的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。
相比之下,语言依赖于个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的带宽通道。它闭了"感知—运动回路(sensorimotor loop)"——这是机器人需要解决的回路,而且在中间不需要语言。
自然界给了我们个具说服力的例证:灵巧物理智能几乎不依赖语言——猿类。
我见过猿类驾驶尔夫球车,用螺丝刀换刹车片,动作就像人类机械师样。
它们的语言理解能力不过 BERT 或 GPT-1惠州PVC管件胶厂家,万能胶厂家但它们的物理技能远远过我们当前的机器人。
猿类可能没有优秀的语言模型,但它们显然拥有对"如果……会怎样"的稳健心理表征:即对物理世界如何运作、以及在其干预下会如何反应的理解。
世界建模的时代已经到来。
这是带着苦涩教训的时代。正如 Jitendra 常提醒我们这些"扩展成瘾者":
监督是 AI 研究者的鸦片。
YouTube 的海量和智能眼镜的兴起,将以远文本训练规模的原始视觉流捕捉世界。
我们将看到种新的预训练形式:下个世界状态将不只包含 RGB —— 3D 空间运动、本体感觉和触觉感知才刚刚开始。
我们将看到种新的理形式:在视觉空间中的思维链,而不是语言空间中的思维链。
你可以通过模拟几何关系和接触来解决物理谜题,想象物体如何移动和碰撞,而需将其翻译成字符串。语言是种瓶颈,是种脚手架,而不是基础。
我们将面临系列新的潘多拉盒问题:即便未来模拟,动作该如何解码?
像素重建真的是优目标,还是应该进入其他潜在空间?需要多少机器人数据?远程操作的扩展是否仍然可行?
完成这些之后,我们是否终于迎来机器人域的 GPT-3 时刻?
Ilya 说得没错:AGI 尚未收敛。我们又回到了研究时代,而没有什么比挑战原理让人兴奋的了。
世界模型作为新的范式
总体来看,这篇新文章可以被看作是 Jim Fan 在2025 年机器人年终总结中三点的延伸与展开。
当时,他提出:基于 VLM 的路线,本质上主要服务于语言和知识,而不是物理世界本身。
那时惠州PVC管件胶厂家,他已经把问题说得很直白:
VLM 的参数主要面向语言和知识,而非物理世界。
视觉编码器在训练中会主动丢弃细节,但机器人操作恰恰依赖这些细节。
因此,VLA 并不会随着 VLM 的 scale 自然增强。
而近这篇关于 world modeling(世界建模) 的长文,则可以看作是 Jim Fan 对这判断的系统展开与进步思考。
对于他的观点,业内大佬和网友也纷纷表达了看法。
来自 Google DeepMind 的 Genie 3 联负责人、世界模型团队负责人Jack Parker-Holder也在转发分享了他对世界模型应用场景的理解:
世界模型本身就是类全新的基础模型。它们既服务于交互式媒体(模型),也服务于具身 AGI。世界模型是连接虚拟与物理两个域的桥梁,其真正价值在于跨任务、跨域的泛化能力。
换句话说,就像LLM 作为基座模型既能编程又能解数学题样,放到世界模型上,生成与具身操控也可以兼容。
而谷歌、英伟达等玩,也都在虚拟游戏、以及物理机器人域同步布局。
不过,前英伟达机器人研究主管Arsalan Mousavian也提醒:
对于大型世界模型(LWM)来说,这是个非常棒的愿景,但从像素到物理的跃迁仍然很陡峭。
要让世界模型成为可靠的动作生成骨干,还须解决以下问题:
几何致:确保运动学和物体恒常在物理上成立。
同保持:避跨实体的幻觉预测,例如机器人 A 在预测过程中突然变成机器人 B。
理速度:降低实时循环延迟。大型世界模型计量大、延迟,而机器人需要频率响应。
动作采样:世界模型可以预测结果,但我们仍然需要对动作进行采样。
在数据量和计需求上,这目标将使当前的动作策略扩展(action-policy scaling)显得相对温和。
此外,jim fan 提到的视觉理也引发广泛讨论:
理不定非得依赖语言——视觉模拟(几何、接触、运动)本身就能构成理过程。
机器人正是视觉为中心的基础模型大显身手的舞台。2026 将是多模态、多轮交互代理(机器人 /CUA)之年,而这场比赛的胜者,然会在游戏中加重视视觉模态。
猿猴的比喻非常贴切。我们太过痴迷语言,以至于忘记了灵巧的行动能力并不定需要词汇量。2026 年或许是机器人技术终停止依赖语言模型,转而构建原生系统的年。
而除开英伟达、谷歌等巨头在世界模型技术路线的押注外,商业层面也在快速进——
周前,李飞飞创办的 World Labs 正以约 50 亿美元估值进行新轮融资,规模可达 5 亿美元。
而LeCun前段时间创办 AMI Labs(Advanced Machine Intelligence,AMI)也吸引了包括 Cathay Innovation 在内的潜在投资者,传闻其融资估值可能达到 35 亿美元。
参考链接:https://x.com/DrJimFan/status/2018754323141054786
— 欢迎 AI 产品从业者共建 —
� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
键关注 � � 点亮星标
科技前沿进展每日见惠州PVC管件胶厂家
相关词条:铁皮保温 塑料挤出机 钢绞线 玻璃卷毡厂家 保温护角专用胶
