周鸿祎预测Sora对行业影响 (周鸿祎sora震撼视频8分钟)

再谈Sora的技术本质:成百上千个维度,而不仅仅是2D/3D的问题。

“AI闲谈”的《追本溯源:OpenAI Sora 技术报告解读》,值得好好学习,我已经看了好多遍了。对其中的这个图,印象深刻:

追本溯源:OpenAI Sora 技术报告解读

周鸿祎谈sora直播回放,sora演示视频周鸿祎

取自“AI闲谈”公众号

用这个图,以Sora为代表的生成式AI就把2维的平面图与时间联系到了一起,图像中的特征随着时间变化时内在的规律,AI就能发现了。所以,用传统的ChatGPT的方法,也可以训练2D/3D视频图像。

再展开一点,到本文的主题。

我一直觉得,对3D的真实世界,使用2D的视频来训练AI,天生就存在缺陷与不足,更好的方式是用3D的视频来训练AI,

其实,真实的3D世界,以及2D的视频,都不只是2D/3D那么简单,它实际上有成百上千个维度,甚至可以认为有无穷多个“维度”,这是我的最新观点。

2D平面,与3D立体,很容易理解。再加上时间这个维度,就变成了2D视频(3维时空 )或3D视频(4维时空)。实际上,具体到视频上,就不只是有这几个维度了,至少很容易增加的一个维度是:光线,这个维度。有光,物体反射了不同的光强,才能看到图像,因此普通的2D视频中就有了时间T,再加上光线这个维度时,就变成了4D了,对应真实世界则是5D。

真实的3D世界,例如刚性的形状不变的物理,从不同的视角去看它,用不同的光线去看出,最终输出的视频是不一样的,所以:光这个维度不难理解。而真实的物理世界,甚至可以认为每一种动物,都是一个维度。甚至不同肤色的人种也是一个维度。每个维度都有它“特定的固有的”的特征。视频中出现的任意一个维度,都需要AI去发现它的内在的“物理”呈现规律,这样AI无中生有的视频,才能“逼真”,才能“骗过人类”。而对于AI还没有训练过的维度,它必然“不懂”,也就无法生成。更进一步:如果哪个维度训练得还不够,或者模型的参数量还不够,它可能就会经常出Bug。

现实世界的不同的维度(包括3D空间,时间、光、物种、流体、气体等),让AI去学习,难度可能不一样,学习的方法不一样时,或学习的样本质量不一样时,学习效率以及学习所需要消耗的资源可能不一样,最终的学习”成绩“可能就不一样。

昨天360周鸿祎,希望能有人帮他测试一下,看Sora能否生成打篮球或踢足球的场景,以”证明“Sora理解了这个世界。他没搞清楚Sora的本质技术原理,不懂它的训练方式与”理解“方法,所以还需要让人试了才能确定Sora现在有没有具备这个能力。我现在可以100%的确定的说,至少Sora现在还完全不具备这个能力。我的依据是两点:

1、这个难度太大,重点还不是篮球或足球运动员相互之间的互动,仅仅球的抛物线运动,就够Sora用掉N多的学习资源与脑神经(模型规模)了。在能模拟球的运行规律的基础上,再加上球员之间的互动,加上球员与球的互动...... 我有点怀疑,凭现在所有的可以查阅到的全部NBA的视频,它是否能学会? 是否能学会这篮球场上的N个不同的运动与相互作用维度?

2、另外,我觉得不用试也就知道Sora不具备这个能力的原因是:这太高难度了。以美国人的体育精神,他们对美式football(橄榄球)的热爱。如果Sora能模拟输出这么复杂的运动场景,他们放出的的片段就不是在日本大街上行走的女人这个片段了,会是1分钟的美式football片段。这效果绝对是炸裂的N次方了。 [呲牙]

所以,在”红衣大叔“还在公开课里请求有权限试用Sora的用户,来帮他测试一下现在Sora的能力时,我可以明确的告诉他,现在的Sora,还不行。 从另一方面来说,既然他居然在期望Sora现在就具备了这样的能力,那说明他对Sora的技术原理实在是了解得不够深入,容易让我这样的他眼中的”杠精“笑话他。 [捂脸]

所以,如果哪位能与红衣大叔联系上,可以告诉他:

他的清华校友“AI老叨”想告诉他:请转周鸿祎:当前的Sora根本不可能拥有输出“篮球赛/足球赛/橄榄球赛”短视频的能力!

我愿意与他打赌[笑哭]

周鸿祎谈sora直播回放,sora演示视频周鸿祎