追本溯源：OpenAI Sora 技术报告解读

周鸿祎谈sora直播回放,sora演示视频周鸿祎

取自“AI闲谈”公众号

用这个图，以Sora为代表的生成式AI就把2维的平面图与时间联系到了一起，图像中的特征随着时间变化时内在的规律，AI就能发现了。所以，用传统的ChatGPT的方法，也可以训练2D/3D视频图像。

再展开一点，到本文的主题。

我一直觉得，对3D的真实世界，使用2D的视频来训练AI，天生就存在缺陷与不足，更好的方式是用3D的视频来训练AI，

其实，真实的3D世界，以及2D的视频，都不只是2D/3D那么简单，它实际上有成百上千个维度，甚至可以认为有无穷多个“维度”，这是我的最新观点。

2D平面，与3D立体，很容易理解。再加上时间这个维度，就变成了2D视频（3维时空）或3D视频（4维时空）。实际上，具体到视频上，就不只是有这几个维度了，至少很容易增加的一个维度是：光线，这个维度。有光，物体反射了不同的光强，才能看到图像，因此普通的2D视频中就有了时间T，再加上光线这个维度时，就变成了4D了，对应真实世界则是5D。

真实的3D世界，例如刚性的形状不变的物理，从不同的视角去看它，用不同的光线去看出，最终输出的视频是不一样的，所以：光这个维度不难理解。而真实的物理世界，甚至可以认为每一种动物，都是一个维度。甚至不同肤色的人种也是一个维度。每个维度都有它“特定的固有的”的特征。视频中出现的任意一个维度，都需要AI去发现它的内在的“物理”呈现规律，这样AI无中生有的视频，才能“逼真”，才能“骗过人类”。而对于AI还没有训练过的维度，它必然“不懂”，也就无法生成。更进一步：如果哪个维度训练得还不够，或者模型的参数量还不够，它可能就会经常出Bug。

现实世界的不同的维度（包括3D空间，时间、光、物种、流体、气体等），让AI去学习，难度可能不一样，学习的方法不一样时，或学习的样本质量不一样时，学习效率以及学习所需要消耗的资源可能不一样，最终的学习”成绩“可能就不一样。

昨天360周鸿祎，希望能有人帮他测试一下，看Sora能否生成打篮球或踢足球的场景，以”证明“Sora理解了这个世界。他没搞清楚Sora的本质技术原理，不懂它的训练方式与”理解“方法，所以还需要让人试了才能确定Sora现在有没有具备这个能力。我现在可以100%的确定的说，至少Sora现在还完全不具备这个能力。我的依据是两点：

1、这个难度太大，重点还不是篮球或足球运动员相互之间的互动，仅仅球的抛物线运动，就够Sora用掉N多的学习资源与脑神经（模型规模）了。在能模拟球的运行规律的基础上，再加上球员之间的互动，加上球员与球的互动...... 我有点怀疑，凭现在所有的可以查阅到的全部NBA的视频，它是否能学会？ 是否能学会这篮球场上的N个不同的运动与相互作用维度？

2、另外，我觉得不用试也就知道Sora不具备这个能力的原因是：这太高难度了。以美国人的体育精神，他们对美式football（橄榄球）的热爱。如果Sora能模拟输出这么复杂的运动场景，他们放出的的片段就不是在日本大街上行走的女人这个片段了，会是1分钟的美式football片段。这效果绝对是炸裂的N次方了。 [呲牙]

所以，在”红衣大叔“还在公开课里请求有权限试用Sora的用户，来帮他测试一下现在Sora的能力时，我可以明确的告诉他，现在的Sora，还不行。从另一方面来说，既然他居然在期望Sora现在就具备了这样的能力，那说明他对Sora的技术原理实在是了解得不够深入，容易让我这样的他眼中的”杠精“笑话他。 [捂脸]

所以，如果哪位能与红衣大叔联系上，可以告诉他：

他的清华校友“AI老叨”想告诉他：请转周鸿祎：当前的Sora根本不可能拥有输出“篮球赛/足球赛/橄榄球赛”短视频的能力！

我愿意与他打赌[笑哭]

周鸿祎谈sora直播回放,sora演示视频周鸿祎

周鸿祎预测Sora对行业影响 (周鸿祎sora震撼视频8分钟)

追本溯源：OpenAI Sora 技术报告解读