特斯拉fsd纯视觉技术原理 (特斯拉美国的纯视觉fsd版本)

Raines雷

特斯拉的FSD纯视觉系统已经开发多年,本文采用最新的5个主要版本用作分析,包括了3个基于DAC的v11版本:v11.4.7(2023/8/27), v11.4.7.3(2023/10/22), v11.4.9(2023/12/20), 以及2个基于E2E的v12版本:v12.3(2024/3/15), v12.3.3(2024/3/31)。这5个版本的数据由上百名社区测试驾驶员,在北美七个以上不同州的不同交规不同路况下,采集到的1714次行驶记录,累计里程约7.12万公里。虽然与我国交通路况不同,但基于不同光照、不同天气的版本间纵向对比,对于纯视觉技术方案的安全性分析依然是有参考意义的。

一、背景信息

纯视觉方案的表现与系统技术栈有很大的关系,总的来说可以分为两种技术栈:DAC、E2E。DAC就是指“分治法(Divide and Conquer)”,也就是指传统的基于“感知、规划、控制”三大模块组成的“模块化”系统架构,而E2E指的是“端到端(End to End)”,也就是基于深度神经网络的“一体化”的模型架构。

DAC是软件工程中常见的解决思路,核心思想是把一个复杂的问题拆分为多个简单的小问题,然后分别解决。而E2E则是模拟人脑,以一个“黑盒子”的方式,通过大算力、大数据、大模型的“力大砖飞”来实现模型能力的“涌现”。我们所熟知的ChatGPT、Sora、Midjourney甚至是早年就成为世界第一的阿尔法狗Zero,都是基于E2E架构。这里需要强调的一点是,DAC/E2E这个分析维度并不是纯视觉专属,理论上融合感知也可以采用E2E架构。

二、强光或逆光情况下,纯视觉方案的安全性如何?

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

由以上数据可以得出二个结论:

1.纯视觉方案下,阳光直射对安全性上限的影响并没有想象中那么大。 我们往往认为强光直射是纯视觉方案的“最差场景”,因为摄像头会像人一样,被强光直射直接短短暂致盲。从数据上可见,v11.4.7属于一个“稍微异常”的退步情况。需要注意的是,v11.4.9这个版本整体表现非常稳定,所以标准差就非常小,显得v11.4.9的波动非常大,但是其实也只是在10英里的平均值上退步了2英里。但是,在v12.3上确实出现了“显著异常”的退步,这或许是v12.3这个版本的特性导致的:v12.3这个版本训练非常激进,在部分场景下表现极好,但是在另一些情况下又出现了比较大的退步,因此整体的稳定性并不好。而在v12.3.3这个版本中,我们发现数据回到了正常区间,强光直射与平均水平仅差了约0.29个标准差,可以理解为基本上不受影响。

总的来说,虽然强光直射确实可以从数据上看出其极高的处理难度,但并不足以证明强光直射是摄像头的“最坏情况”:作为E2E架构中表现最差的v12.3,其面对强光直射时的表现仍然是DAC架构的两倍,依然可以说实现了指数级的提升。而E2E架构中更优秀的v12.3.3甚至做到了4倍的改进,并且可以说与平均水平相比几乎没有退步。也就是说,通过提高软件的智能可以显著的改善强光直射场景下的安全性,而且这种改进并不受硬件的约束。

这一点其实也在现实中得到了印证,北美车主在市区的强光直射情况下测试v12.3。作为v12版本中“最差”的v12.3,实际上相比于几个月前的v11.4.9版本仍有两倍改进。在持续6公里15分钟的过程中,车主并没有遇到任何需要接管的失误,FSD多次在驾驶员已经失去视野的情况下主动避让行人、违停车辆,并进行了多次高难度的无保护无转。基本上可以看出和基于DAC架构的v11版本相比,强光直射已经不再是E2E纯视觉方案的痛点(其实对v11最新的几个版本来说也没有那么痛,至少从数据上来看是这样的)。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

说到底,FSD的硬件基本上就是8个摄像头。在这些不同的版本间表现差异这么大,主要还是因为软件不同,这就侧面证面了“是否使用激光雷达”并不是这种情况下评判安全性的唯一标准。

2. 信息利用效率的提高,改善了FSD在强光直射时的鲁棒性。 从数据中还可以看出,不仅E2E整体表现是DAC的大约三倍,同时在阳光直射情况下,相比于整体平均水平的偏离也出现了缩小的趋势。从代表标准分数的黄色曲线可以看出,FSD在阳光直射下的安全性从v12.3.3开始愈加趋向于稳定,其0.29的标准分数几乎可以说是“强光免疫”了。

为什么会这样呢?其实,对于纯视觉方案来说,最大的挑战就是在极端情况下采集的有效信息量变少,信息量的衰减必然导致模型表现出现退步。融合感知理论上就是为了解决这个问题,在一种传感器信息衰减时,可以用另一种传感器的信息来替补。而E2E架构则是在另一个维度解决这个问题,它并不增加信息的总量,而是增加信息在处理过程中的使用效率。

试想人类在这种情况下是怎样驾驶的呢?答案是:减速,不与强光直视,并看向车道线以保持行驶方向。而纯视觉方案是如何解决的呢?其实原理也是一样,就是用多个不同角度的摄像头来解决。当一个摄像头被强光直射,就代表其它不同角度的摄像头一定没有被直射,那么其它的摄像头依然可以采集到大部分的有效信息。关键就在于,软件需要足够“聪明”的去将其它角度的“备用”摄像头的信息有效的利用起来,从而保持FSD的行驶安全。这就需要额外的“智能”了,但一旦能够做到,它将会做的比人更好。

E2E架构最大的优势在于将感知上游与控制下游打通,让各种微妙信息可以无损的从上游流向下游,从而减少信息的损耗,提高模型对传感器采集信息的使用效率,这就是E2E鲁棒性提升的主要原因。需要强调的是,基于其更高的使用效率,E2E架构的一体化模型在实现相同功能时,相比于DAC架构的模块化模型组合,会具有更低的功率消耗,并对车载芯片的算力要求更低。这是因为模块化架构往往需要很多小模型来实现完整的功能,比如一个模型用来识别路标,一个模型用来识别异常障碍物,一个模型用来做路径规划等等。基于DAC架构的v11.4.9其实已经没有多少代码了,但是里面依然有200余个小神经网络,它们一起运行时依然会给车载芯片带来很大的性能浪费。而这一点在E2E的v12版本中不复存在:用一个大模型取代数百个小模型,用一个单一部件取代一个流水线,事实上是更加高效的。

正因如此,即便模型如今可能已经到了上百亿参数,特斯拉依然可以让它向一些很老的车型进行推送。如今运行着v12.3.3的hw3.0仍有很多的闲置算力,这就像一个“算力存钱罐”,FSD团队目前并没有打算使用它们。但是,在最坏情况下,如果FSD团队对于提高FSD的表现无计可施,那么它们就可以打碎这个算力存钱罐——直接把模型做的更大。这不需要任何技术创新,也可以把模型水平往上强行翻几倍。

三、雨天路面反光、夜晚视野变差等等情况,纯视觉方案怎么办?

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

由以上数据,可以看出雨天时FSD在基于DAC的v11版本中,其实并没有多少退步。v11.4.9虽然显得很差(差了2.03个标准差 ),但这是因为它整体表现过于稳定所导致的。在基于E2E的2个v12版本中,我们可以明显看出雨天的FSD表现反而更好,这与我们的常识是相违背的。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

在夜晚的相关数据中,这种“反常识”的特点尤其明显——FSD在夜晚开车时往往要更安全,在v12.3和v12.3.3中的夜间驾驶简直成了FSD的“独门绝技”。我们可以得出一个结论: 纯视觉方案的“被动采集”,在夜晚弱光环境下并没有显著劣势。 即使在夜晚弱光时,我们自带的大灯依然可以提供足够的光照来保证足够的信息收集量,以保证在夜晚光照不足时,FSD依然有不弱于平均水平的安全性。

但是,为什么雨天、夜晚的FSD并不退步,甚至在E2E架构上反而显著比平均水平更高呢?具体的原因我并不清楚,我个人的猜测是:FSD整体在路况不佳时会调整驾驶风格,比如开的更慢、更谨慎,人类驾驶员也会将FSD的速度设定的更慢,并不会像天气好时那么鲁莽的强行让FSD超速。这种更谨慎的驾驶风格,可能在某种程度上弥补了更差的驾驶条件,反而提高了整体安全性。

另外,在雨天、夜晚,人类司机往往也会开得更加谨慎小心,这或许降低了FSD与其它交通参与者之间博弈的难度。博弈难度的降低和E2E智能水平的提高,可能是导致在夜晚、雨天时安全性比平均水平更高的原因。然而,这终究是一个黑盒子(就像ChatGPT、Sora一样),没有人可以解释为什么这种“独门绝技”出现的真正原因,但我们可以确定的是: 大多数人对FSD的理解都错了,FSD在雨天、夜晚时并没有多少退步,在采用E2E架构后反而更加安全

四、在交通路况非常复杂时,纯视觉方案不够安全?

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

交通博弈一直是自动驾驶系统的一大难点,因为这最考验系统的“智能”。哪怕看得见,如果看不懂,想不明白,还是会在交通博弈中面临危险。这也就是为什么我们常说“城区”的智驾要比“高速”的智驾更加难解决,大多数厂商的数据也一定是城市比高速更差一些。那么,从FSD的数据中我们可以看出什么呢?

1. 处理复杂交通并不需要传感器冗余。 我们可以发现v11的三个版本中,有两个在交通中的表现是更差的。然而,从E2E开始,在复杂交通中的v12反而显现出显著超越平均水平的能力,相比于DAC的3个版本,展现出了了4-10倍的安全性跃迁。这种优势是非常非常反直觉的,我们往往会质疑纯视觉方案在复杂交通下能否“保持正常水平”,谁能想到当FSD进入E2E架构后,处理复杂交通反而直接从“弱项”转化成了“强项”呢?这项数据告诉印证了一个道理:城市交通车速其实并不快,路面情况也相对较好,同时也并不属于极端天气(信息利用率不会出现衰减),因此对于E2E的大模型来说这就是一个“理想情况”,而不是“最差情况”。

2. 智能的跃升,对于城市交通驾驶有关键性作用。 在城市交通中,行驶速度往往更慢,路况虽然复杂,但是传感器采集的信息量并不会有明显衰减。然而,城市交通中往往代表着更多的交通参与者:自车与社会车、行人的交互、意图推理、以及路权博弈等,都需要极高的智能。而E2E架构相比DAC架构最大的区别就是保留了上游的微妙信息,这些信息显然正是城市交通中的安全驾驶所迫切需要的。也正因如此,E2E模型在信息高保真的情况下,显然尤其擅长推理交通参与者的意图,擅长参与路权博弈,也更擅长处理复杂的交通情况。也就是说,又一次的,大多数对FSD的理解错了,复杂交通是E2E架构的强项,而不是弱项。

这种数据在现实中也得到了印证:在北美车主的一次针对性测试中,测试人员会多次突然从一辆白色车辆后面跑出来,但只是站在路边,并不会跑到车辆正前方。这主要是为了测试FSD是否会执行“礼让性停车”。要注意的是,停车或者不停车严格来说都是正确的,因为行人在路边停止行进了,而行人的意图其实是不明确的。当车辆停下后,测试人员会挥手示意,让FSD系统先行,也就是通过手势向FSD表明他的真实意图。我们可以看出,v12.3.3可以在四次停车中,两次成功识别行人的手势。在这次实验中,行人的微妙肢体语言与FSD的行为产生了高度相关性。在DAC架构中,我们从来没有见过FSD展现出这种能力。需要提到的是,这是大模型在训练中无意领悟的新能力,FSD团队并没有刻意的训练行人的手势识别。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理