新智元报道


【新智元导读】被算力荒逼出来的硬核奇迹!腾讯米哈游老兵组成的「草根」团队,硬在国产芯片上炼出了超10分钟的绝对物理一致性。画面可以糙,物理绝不能假,这就是通往AGI的真正基石。

世界模型,又一个世界模型。做视频的、做物理的、做决策的,全顶着同一个名字。

几天前,李飞飞发了一篇长文,亲自给「世界模型」立了规矩。

她把这个词拆成三块:渲染器、模拟器、规划器。


13天后,一个成立仅一年的中国「草根」团队Mogo,用一款产品给出了自己的定义。

他们手握一张「王牌」——Magpie 1.0,全球首个具备高动态物理交互能力的世界模型。

Magpie 1.0一手体验,世界活了

这次,我们直接跑到了Mogo的办公室,拿起手柄亲自上手:

没有后期、没有剪辑魔法,全部是模型当场跑出来的。

先看一段第三人称、非漫游的视角。

这一点很关键,市面上不少世界模型只敢让你「飘」着看风景,因为一旦让角色真正动起来,破绽就藏不住了。

而Magpie里的角色除了走、跑、跳,还能跑酷翻越障碍,是目前动态表现最强的一档。

而这一切,单卡就能实时24 FPS推理。

下面按Mogo的三要素,物理、思考、渲染,一段一段拆。

物理:墙不穿模,车会翻车

物理一致性,远不止「记忆够长、回头180°场景不变」这么简单。

它更是一系列符合直觉的真实反馈——

一辆车沿着湿滑的夜间公路行驶,转过弯,前方是断头路。

来不及刹车,车身腾空,坠落,侧翻,车顶朝下在地面擦出一道弧线。重力对的,摩擦对的,翻滚姿态也是对的。


再看更挑剔的细节。

一个穿铠甲的角色跑向栏杆,双臂撑住顶端,身体翻过去,落地瞬间双腿微曲卸力。

整个过程中手贴合栏杆的位置、躯干旋转的力学、缓冲的时机,全部物理正确。


目前,Magpie 1.0能做到的,是最长约10分钟的物理一致性实时输出。

作为参照,DeepMind的Genie 3官方口径,一致性维持也是「数分钟」量级。

思考:椅子能坐,也能抄起来当武器

物理之上,是这个世界对「人类可感知规律」的理解能力,Mogo把它叫作世界的思考。

风吹草动、椅子当武器、墙能不能爬、杯子碎不碎......

这些在纯渲染的路线里基本是缺位的,模型只管把这一帧画得像,至于杯子落地后该不该碎,它不关心,也不知道。

因此,Magpie 1.0就是让世界自己「想明白」这些事。

一阵风掠过,角色脚下的草丛跟着翻滚起来。没有人写过「风速多少草该弯多少度」的规则,模型自己学到了这件事。


更夸张的是,角色还能跑向一面墙,双手抓住边缘,手脚交替,真的爬了上去。

妥妥的一出AI自己算出来的「飞檐走壁」。


这些判断,人类习以为常,却恰恰是纯渲染型世界模型最容易露馅的地方。

而Magpie 1.0正在努力把它们学进模型本身。

渲染:动态光照与写实风格

尽管渲染在优先级上排在末位,但并不意味着Magpie在画面上就交了白卷。

夜间场景,一辆车从向阳面驶入背阴面,车身金属表面的光影流转极其自然,漫反射和镜面反射各归其位。

金属和玻璃的质感,分得明明白白。


角色在黄昏中奔跑,脚下的影子随光源位置实时拉伸、投射、变形。不是贴上去的假阴影,是逐帧算出来的。


当然,640×384 vs Genie 3的720p,差距一眼就能看出来。

但回看这些实测,翻栏杆、爬墙壁、开车冲下悬崖,你会发现团队把所有的算力都砸在了同一个地方:让这个世界「动」起来。

画面可以糙,物理不能假。这是Mogo从第一天起就做出的取舍。

而这个取舍背后,还有一段更现实的故事。

国产卡训练,「反向适配」英伟达

Mogo,2025年3月成立。核心团队从腾讯、米哈游出来,可你问他们怎么定位自己,答案永远是「草根」。

创始人付东杰,拜耳农业做过数字孪生,哈啰出行搭过AI平台,现在来造世界模型。

联合创始人徐璇,腾讯产品经理出身;首席科学家詹小雨,南大博士,做3D重建和空间理解。

人到齐了,论文发了,方向也想清楚了。但算力却突然断了。

一天早上,云厂商一个电话打过来,续订价格翻倍,而且加了预算也未必能排上。

付东杰接完电话,在办公室坐了很久。本来还准备有计划地加卡,结果不仅加不了,连正在用的卡都可能没了。

当天,团队开了一个紧急会议。讨论到最后,工程负责人说了一句,要不试试国产算力。

问题是,世界模型跟大语言模型完全不是一回事。

它把物理仿真、三维特征编码、实时交互生成揉在了一起,借鉴了LLM迁移国产芯片训练的成功经验,世界模型这个品类,终于在国产芯片上跑起了训练。

没有适配方案,没有文档,一切从零开始。


芯片厂商听到这个消息后,反应非常积极。如果能在国产芯片上跑通一个全新架构的世界模型,对整个生态的意义不言而喻。

对方甚至主动派了一支工程师团队过来,和Mogo坐到了一起。

从底层算子开始,一层一层往上对齐。模型跑不起来,查日志,改代码,重新跑。还是不对,再查,再改。

大半个月。没日没夜。然后有一天,模型跑起来了。

故事到这里本来可以结束。但接下来发生了一件更有意思的事。

在国产芯片上完成了关键训练后,算力的需求得了一定缓解。

为了按照原定计划,最终能够让模型实现在消费级显卡上推理起来的实验目标。

团队需要把模型再迁回到英伟达的芯片上做下一个阶段的训练和最终推理适配。

先在H系列上跑通了,然后继续往下探。


国产卡+英伟达卡训练,英伟达卡推理。

一条被算力荒逼出来的路径,反而让Magpie在训练和部署两端都有了着落。

算力这么紧,每一分都留给了物理。画质的事,以后再说。

技术拆解:把物理「焊」进数据里

Magpie 1.0敢于重仓「物理」的底气,源于团队过去两年的硬核学术积累。

它的技术前身,是2024年底发布在arXiv上的独作论文——MOGO。

彼时,还在哈啰出行负责AI工程落地的付东杰,受《黑神话·悟空》CG的启发,敏锐地捕捉到了一个在当时看来极其疯狂的想法:

既然视频游戏本质是可交互序列(sequence),那完全可以由基于seq2seq的Transformer端到端生成。


但这个想法在2024年初太疯狂了,没有数据,没有算力,什么都没有。他需要找一个最小切入点。

游戏世界里的资产分两种:静态的和动态的。

静态资产是建筑、场景、贴图,当时已经有公司在做。动态资产,主要是动作和动画,关注度却很低。

之所以选择动作,是因为在付东杰看来:

一个游戏场景中的建模做得再精致,光影效果再好,我盯着它看不会超过5分钟。但一个能和我交互起来的角色,即使是我的世界那样像素风的小人,我也能跟他玩一个下午。

这不是一个技术判断,是一个审美选择。

他从一开始就认定,让世界「动」起来比让世界「好看」更重要。Magpie后来的一切技术取舍,根子都在这里。

于是,MOGO应运而生——

这款模型能单次推理生成无限长、超高质量的3D人体动作,并一举拿下了2025年该领域的SOTA。


更具戏剧性的是,初版Demo在B站的发布,意外为他招募到了「最强战队」。

付东杰建群本意是供人试用,却发现群内大半都是同方向的专业研究者。

南安普顿大学数字人实验室的两位博士,便是借此契机「网友面基」。

三人一拍即合,共同将MOGO迭代至AAAI正式版。如今,这两位学者也顺理成章地成为了Mogo科研团队的核心支柱。

除了MOGO,团队还攒下了一连串扎实的技术家底:


付东杰透露,Actial的核心思想,帮Magpie解决了「空间感知」问题。

而SHERT和PBR材质那两篇里植入「隐式约束」的设计思路,正是Magpie在数据层面「把物理焊进数据里」这套方法论的雏形。

数据,是另一块硬骨头。

Magpie 1.0摒弃了真实视频,而采用深度定制的「类游戏引擎」管线,采集了远超2000小时的数据。

为突破当前学习的一些瓶颈,后续版本将逐步引入真实数据。

三条主流路线,它一条都没走

要理解Mogo在赌什么,得先看「世界模型」牌桌上已经摆开的三条路。

第一条,LeCun的JEPA路线。

这位图灵奖得主曾多次直言,「只会预测下一个token的生成式模型,理解不了真实世界」。

因此,不应在像素空间做预测,而是在压缩的隐空间里预测未来状态。

思路很对,但这条路更多是为具身智能设计的,渲染基本没怎么管。

一个机器人可能能在JEPA的世界里做出正确决策,但你作为人类看不到一个漂亮的画面。


第二条,李飞飞的3D高斯路线。

World Labs累计融资超12亿美元,估值达到50亿,做的是基于3D高斯泼溅的空间智能。

这条路兼顾了一部分渲染和物理。


对此,付东杰的判断很尖锐,高斯泼溅的物理更像是一种拟像——

它本身还是生成了3D体积在那里,并没有真正学到物理规律,需要其他模型来补足。

第三条,Sora的纯视觉路线。

谷歌DeepMind的Genie 3属于这一类,720p、24fps,实时交互,维持视觉一致性可达数分钟。

官方称,Genie 3是第一个实时交互的通用世界模型。


但这条路的问题在于,它说到底还是视频生成模型的延伸。

渲染很好看,但付东杰不认为纯视觉生成的世界模型内部有「真实的可思考的物理规律」。

三条路,Mogo一条都没原样走。

世界模型的第四条路

因此,团队开辟了一条全新路径,付东杰把它描述成「隐式三维特征」。

也就是上面多次强调的,Magpie 1.0技术架构的三个核心模块——物理、思考和渲染。

从数据集设计,到训练,再到推理,全程往模型里掺进隐式的三维信息。

既不像Sora那样纯在2D像素上猜,也不像高斯那样把3D显式建出来摆着,而是让模型在内部学会3D的那套约束,用这个去减小长时间一致性的压力。

这解释了为什么Magpie生成的车辆能在坠崖时正确翻滚,角色能在翻越栏杆时准确判断障碍边缘。

模型在3D空间层面理解了物体之间的物理关系,不只是在「猜」一个看起来对的视频帧。


从「生成内容」到「生成世界」

Mogo AI推出了Magpie 1.0,但Mogo想做的,显然不止这一款产品。

在付东杰的判断里,「世界模型,是通往AGI之路的基石」。

Mogo认定,这条路线长远看,会重塑整个3000亿美元规模的游戏市场。

当AI不只能呈现世界的外观,还能理解和模拟世界如何运行,内容生产的逻辑会被彻底改写。

这也是为什么,付东杰对这件事的定义,远比「做一款AI游戏工具」要大。

这正是Magpie 1.0想推动的事:让生成式AI从「生成内容」,真正迈向「生成世界」。

他们没有去比谁的画面更精致,而是固执地去问一个更难的问题:这个世界,到底懂不懂它自己?

死气沉沉的世界是拟象,鲜活的世界是仿真。

而Magpie 1.0,正是这支团队递给世界的、一次从拟象走向仿真的尝试。