Sora到底懂不懂物理世界? 一场脑力激荡正在AI圈大佬间展开
https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb
机器之心报道
编辑:张倩、杜伟
Sora 到底是不是实体引擎甚至是世界模型? 图灵奖得主Yann LeCun、Keras 之父
Francois Chollet 等人正在深入探讨。
最近几天,OpenAI 发布的影片生成模型Sora 成了全世界关注的焦点。
和以往只能产生几秒钟影片的模型不同,Sora 把生成影片的长度一下子拉长到60 秒。
而且,它不仅能了解使用者在Prompt 中提出的要求,还能get 到人、物在物理世界中的
存在方式。
以经典的“海盗船在咖啡杯中缠斗”为例。 为了让生成效果看起来逼真,Sora 需要克服
以下几个物理困难:
规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和
结构,是一个挑战。 AI 需要理解和调整这些物件在现实生活中的相对尺寸,使得场景在
视觉上显得合理;
流体动力学:咖啡杯中的液体会对海盗船的移动产生影响。 AI 模型需要模拟液体动力学
的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;
光线和阴影的处理:为了让场景看起来真实,AI 需要精确地模拟光线如何照射在这个小型
场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;
动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡
杯中。 这意味着AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。
虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些“物理”的。 英伟
达高级研究科学家Jim Fan 甚至断言,“Sora 是一个数据驱动的实体引擎”,“是可学
习的模拟器,或‘世界模型’”。
部分研究者同意这样的观点,但也有不少人反对。
Yann LeCun:产生影片的过程与基于世界模型的因果预测完全不同
图灵奖得主Yann LeCun 率先亮明观点。 在他看来,仅仅根据prompt 生成逼真影片并不
能代表一个模型理解了物理世界,生成影片的过程与基于世界模型的因果预测完全不同。
他接着讲到,模型生成逼真影片的空间非常大,影片产生系统只需要产生一个合理的范例
就算成功。 不过对于一个真实影片而言,其合理的后续延续空间却非常小,产生这些延
续的代表性片段,特别是在特定行动条件下,任务难度更大。 此外产生影片的后续内容
不仅成本高昂,实际上也毫无意义。
因此,Yann LeCun 认为,更理想的做法是产生影片后续内容的抽象表达,并消除与我们
可能所采取动作无关的场景中的细节。
当然,他借此又PR 了一波JEPA(Joint Embedding Predictive Architecture,联合嵌入
预测架构),认为上述做法正是它的核心思想。 JEPA 不是生成式的,而是在表示空间中
进行预测。 与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码
器相比,联合嵌入架构(如Meta 前几天推出的AI 视讯模型V-JEPA)可以产生更优秀的视
觉输入表达。
https://twitter.com/ylecun/status/1758740106955952191
François Chollet:只让AI 看视频学不成世界模型
Keras 之父François Chollet 则阐述了更细致的观点。 他认为,像Sora 这样的视讯生
成模型确实嵌入了“物理模型”,但问题是:这个物理模型是否准确? 它能否泛化到新
的情况,也就是那些不只是训练资料插值的情况?
Chollet 强调,这些问题至关重要,因为它们决定了生成影像的应用范围—— 仅限于媒
体生产,还是可以用作现实世界的可靠模拟。
Chollet 透过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现
象,或者只是创造了一种幻想拼贴。 在这里,他指出模型目前更倾向于后者,即依赖资
料插值和潜空间拼贴来产生影像,而不是真实的物理模拟。 有人将这种行为类比为人类
做梦,认为Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。
Chollet 指出,透过机器学习模型拟合大量资料点后形成的高维曲线(大曲线)在预测物
理世界方面是存在局限的。 在特定条件下,大数据驱动的模型能够有效捕捉并模拟现实
世界的某些复杂动态,例如预测天气、模拟风洞实验等。 但这种方法在理解和泛化到新
情况时存在局限性。 模型的预测能力依赖其训练资料的范围和质量,对于那些超出训练
资料分布的新情况,模型可能无法准确预测。
所以,Chollet 认为,不能简单地透过拟合大量资料(如游戏引擎渲染的影像或影片)来
期望得到一个能够泛化到现实世界所有可能情况的模型。 这是因为现实世界的复杂性和
多样性远远超过任何模型能够透过有限数据学习到的。
田渊栋:学习物理需要主动学习或策略强化学习
针对Jim Fan 的观点,一些研究者提出了更激进的反驳,认为Sora 并不是学到了物理,
只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。 也有人觉得,Sora 不过是对
2D 像素的操纵。
https://twitter.com/IntuitMachine/status/1758845715709632873
当然,Jim Fan 对“Sora 没有在学习物理,而只是操纵2D 像素”这一说法进行了一系列
反驳。 他认为,这种观点忽略了模型在处理复杂资料时所展现的深层能力。 就像批评
GPT-4 不是学习编码,只是随机挑选字串一样,这种批评没有认识到Transformer 模型在
处理整数序列(代表文本的token ID)时所表现出的复杂理解和生成能力。
https://twitter.com/DrJimFan/status/1758549500585808071
对此,Google研究科学家Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以
促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢? 是否需要MDL(
Minimum description length,最小描述长度)呢?
https://twitter.com/sirbayes/status/1759101992516112864
同时,知名AI 学者、Meta AI 研究科学家田渊栋也认为,关于Sora 是否有潜力学到精确
的物理学(当然现在还没有),背后的关键问题是:为什么像“预测下一个token”或“
重建”这样简单的思路会产生如此丰富的表示法?
他表示,损失函数如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂
)并不直接决定模型能否学到更好的表示。 事实上,复杂的损失函数可能与看起来很简
单的损失函数实际上产生了类似的效果。
最后他称,为了更好地理解事物,我们确实需要揭开Transformers 的黑盒子,检查给定
反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程
。
https://twitter.com/tydsh/status/1759293967420805473
田渊栋也表示,如果想要学习精确的物理,他敢打赌需要主动学习或策略强化学习(无论
如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。
https://twitter.com/tydsh/status/1759389064648888395
其他观点:Sora 被认为是“数据驱动的实体引擎”太荒谬
除了众多AI 圈大佬之外,也有一些专业性的观点开始反驳Sora 懂物理引擎这个说法。
例如下面这位推特部落客,他认为OpenAI 是数据驱动的物理引擎这一观点是荒谬愚蠢的
, 就好像收集了行星运动的数据并将它们喂给一个预测行星位置的模型,然后就得出此
模型内部实现了广义相对论的结论。
https://twitter.com/ChombaBupe/status/1759226186075390033
他称,爱因斯坦花了很多年时间才推导出了重力理论的方程式。 如果有人认为随机梯度
下降(SGD)+ 反向传播仅凭输入输出对就能理解一切,并在模型训练中解决问题,那么
这个人对于机器学习的理解是有问题的,对机器学习的工作方式了解也不够。
爱因斯坦在理论推导中对现实做出了许多假设,例如光速恒定、时空是灵活的结构,然后
推导出了微分方程,其解揭示了黑洞、重力波等重大发现。 可以说,爱因斯坦利用因果
推理将不同的概念连结了起来。
但是,SGD + 反向传播并不是这样,它们只是将资讯压缩到模型权重中,并不会进行推理
,只是更新并转向实现具有最低误差的参数配置。
他认为,机器学习(ML)中的统计学习过程可能会显然低误差“盆地”,即无法探索不同
的概念, 因为一旦陷入这些低误差“盆地”或局部最小值就无法重新开始。
因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。 这就
是为什么深度学习系统不可靠且实际训练起来很难,你必须在现实中不断更新和训练它们
,这就很麻烦。
梯度下降的工作原理就像一只苍蝇寻找气味源一样,即苍蝇跟随空气中的化学浓度向下移
动,从而引导它导向气味源。 但如果仅依赖这种方式,就很容易迷路或陷入困境。
在机器学习中,模型的可调式参数就像苍蝇,训练资料就像气味源,目标函数测量的误差
就像气味。 而调整模型权重的目的是朝着气味源(这里是低误差,相当于更浓的气味)
移动。
最后,他得出结论,如果认为机器学习模型仅仅透过训练行星运动的影片就能在内部学到
广义相对论,那就更荒谬了。 这是对机器学习原理的严重误解。
此外,有网友指出Sora 影片范例充满了物理错误,例如一群小狗在雪中玩闹的场景就很
糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)。
https://twitter.com/MikeRiverso/status/1759271107373219888
Sora 到底懂不懂物理? 将来会不会懂? “预测下一个token”是不是通往AGI 的一个方
向? 我们期待各路研究者进行进一步验证。