Raines雷

特斯拉的FSD纯视觉系统已经开发多年，本文采用最新的5个主要版本用作分析，包括了3个基于DAC的v11版本：v11.4.7(2023/8/27), v11.4.7.3(2023/10/22), v11.4.9(2023/12/20), 以及2个基于E2E的v12版本：v12.3(2024/3/15), v12.3.3(2024/3/31)。这5个版本的数据由上百名社区测试驾驶员，在北美七个以上不同州的不同交规不同路况下，采集到的1714次行驶记录，累计里程约7.12万公里。虽然与我国交通路况不同，但基于不同光照、不同天气的版本间纵向对比，对于纯视觉技术方案的安全性分析依然是有参考意义的。

一、背景信息

纯视觉方案的表现与系统技术栈有很大的关系，总的来说可以分为两种技术栈：DAC、E2E。DAC就是指“分治法(Divide and Conquer)”，也就是指传统的基于“感知、规划、控制”三大模块组成的“模块化”系统架构，而E2E指的是“端到端（End to End)”，也就是基于深度神经网络的“一体化”的模型架构。

DAC是软件工程中常见的解决思路，核心思想是把一个复杂的问题拆分为多个简单的小问题，然后分别解决。而E2E则是模拟人脑，以一个“黑盒子”的方式，通过大算力、大数据、大模型的“力大砖飞”来实现模型能力的“涌现”。我们所熟知的ChatGPT、Sora、Midjourney甚至是早年就成为世界第一的阿尔法狗Zero，都是基于E2E架构。这里需要强调的一点是，DAC/E2E这个分析维度并不是纯视觉专属，理论上融合感知也可以采用E2E架构。

二、强光或逆光情况下，纯视觉方案的安全性如何？

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

由以上数据可以得出二个结论：

1.纯视觉方案下，阳光直射对安全性上限的影响并没有想象中那么大。 我们往往认为强光直射是纯视觉方案的“最差场景”，因为摄像头会像人一样，被强光直射直接短短暂致盲。从数据上可见，v11.4.7属于一个“稍微异常”的退步情况。需要注意的是，v11.4.9这个版本整体表现非常稳定，所以标准差就非常小，显得v11.4.9的波动非常大，但是其实也只是在10英里的平均值上退步了2英里。但是，在v12.3上确实出现了“显著异常”的退步，这或许是v12.3这个版本的特性导致的：v12.3这个版本训练非常激进，在部分场景下表现极好，但是在另一些情况下又出现了比较大的退步，因此整体的稳定性并不好。而在v12.3.3这个版本中，我们发现数据回到了正常区间，强光直射与平均水平仅差了约0.29个标准差，可以理解为基本上不受影响。

总的来说，虽然强光直射确实可以从数据上看出其极高的处理难度，但并不足以证明强光直射是摄像头的“最坏情况”：作为E2E架构中表现最差的v12.3，其面对强光直射时的表现仍然是DAC架构的两倍，依然可以说实现了指数级的提升。而E2E架构中更优秀的v12.3.3甚至做到了4倍的改进，并且可以说与平均水平相比几乎没有退步。也就是说，通过提高软件的智能可以显著的改善强光直射场景下的安全性，而且这种改进并不受硬件的约束。

这一点其实也在现实中得到了印证，北美车主在市区的强光直射情况下测试v12.3。作为v12版本中“最差”的v12.3，实际上相比于几个月前的v11.4.9版本仍有两倍改进。在持续6公里15分钟的过程中，车主并没有遇到任何需要接管的失误，FSD多次在驾驶员已经失去视野的情况下主动避让行人、违停车辆，并进行了多次高难度的无保护无转。基本上可以看出和基于DAC架构的v11版本相比，强光直射已经不再是E2E纯视觉方案的痛点（其实对v11最新的几个版本来说也没有那么痛，至少从数据上来看是这样的）。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

说到底，FSD的硬件基本上就是8个摄像头。在这些不同的版本间表现差异这么大，主要还是因为软件不同，这就侧面证面了“是否使用激光雷达”并不是这种情况下评判安全性的唯一标准。

2. 信息利用效率的提高，改善了FSD在强光直射时的鲁棒性。 从数据中还可以看出，不仅E2E整体表现是DAC的大约三倍，同时在阳光直射情况下，相比于整体平均水平的偏离也出现了缩小的趋势。从代表标准分数的黄色曲线可以看出，FSD在阳光直射下的安全性从v12.3.3开始愈加趋向于稳定，其0.29的标准分数几乎可以说是“强光免疫”了。

为什么会这样呢？其实，对于纯视觉方案来说，最大的挑战就是在极端情况下采集的有效信息量变少，信息量的衰减必然导致模型表现出现退步。融合感知理论上就是为了解决这个问题，在一种传感器信息衰减时，可以用另一种传感器的信息来替补。而E2E架构则是在另一个维度解决这个问题，它并不增加信息的总量，而是增加信息在处理过程中的使用效率。

试想人类在这种情况下是怎样驾驶的呢？答案是：减速，不与强光直视，并看向车道线以保持行驶方向。而纯视觉方案是如何解决的呢？其实原理也是一样，就是用多个不同角度的摄像头来解决。当一个摄像头被强光直射，就代表其它不同角度的摄像头一定没有被直射，那么其它的摄像头依然可以采集到大部分的有效信息。关键就在于，软件需要足够“聪明”的去将其它角度的“备用”摄像头的信息有效的利用起来，从而保持FSD的行驶安全。这就需要额外的“智能”了，但一旦能够做到，它将会做的比人更好。

E2E架构最大的优势在于将感知上游与控制下游打通，让各种微妙信息可以无损的从上游流向下游，从而减少信息的损耗，提高模型对传感器采集信息的使用效率，这就是E2E鲁棒性提升的主要原因。需要强调的是，基于其更高的使用效率，E2E架构的一体化模型在实现相同功能时，相比于DAC架构的模块化模型组合，会具有更低的功率消耗，并对车载芯片的算力要求更低。这是因为模块化架构往往需要很多小模型来实现完整的功能，比如一个模型用来识别路标，一个模型用来识别异常障碍物，一个模型用来做路径规划等等。基于DAC架构的v11.4.9其实已经没有多少代码了，但是里面依然有200余个小神经网络，它们一起运行时依然会给车载芯片带来很大的性能浪费。而这一点在E2E的v12版本中不复存在：用一个大模型取代数百个小模型，用一个单一部件取代一个流水线，事实上是更加高效的。

正因如此，即便模型如今可能已经到了上百亿参数，特斯拉依然可以让它向一些很老的车型进行推送。如今运行着v12.3.3的hw3.0仍有很多的闲置算力，这就像一个“算力存钱罐”，FSD团队目前并没有打算使用它们。但是，在最坏情况下，如果FSD团队对于提高FSD的表现无计可施，那么它们就可以打碎这个算力存钱罐——直接把模型做的更大。这不需要任何技术创新，也可以把模型水平往上强行翻几倍。

三、雨天路面反光、夜晚视野变差等等情况，纯视觉方案怎么办？

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

由以上数据，可以看出雨天时FSD在基于DAC的v11版本中，其实并没有多少退步。v11.4.9虽然显得很差（差了2.03个标准差），但这是因为它整体表现过于稳定所导致的。在基于E2E的2个v12版本中，我们可以明显看出雨天的FSD表现反而更好，这与我们的常识是相违背的。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

在夜晚的相关数据中，这种“反常识”的特点尤其明显——FSD在夜晚开车时往往要更安全，在v12.3和v12.3.3中的夜间驾驶简直成了FSD的“独门绝技”。我们可以得出一个结论： 纯视觉方案的“被动采集”，在夜晚弱光环境下并没有显著劣势。 即使在夜晚弱光时，我们自带的大灯依然可以提供足够的光照来保证足够的信息收集量，以保证在夜晚光照不足时，FSD依然有不弱于平均水平的安全性。

但是，为什么雨天、夜晚的FSD并不退步，甚至在E2E架构上反而显著比平均水平更高呢？具体的原因我并不清楚，我个人的猜测是：FSD整体在路况不佳时会调整驾驶风格，比如开的更慢、更谨慎，人类驾驶员也会将FSD的速度设定的更慢，并不会像天气好时那么鲁莽的强行让FSD超速。这种更谨慎的驾驶风格，可能在某种程度上弥补了更差的驾驶条件，反而提高了整体安全性。

另外，在雨天、夜晚，人类司机往往也会开得更加谨慎小心，这或许降低了FSD与其它交通参与者之间博弈的难度。博弈难度的降低和E2E智能水平的提高，可能是导致在夜晚、雨天时安全性比平均水平更高的原因。然而，这终究是一个黑盒子（就像ChatGPT、Sora一样），没有人可以解释为什么这种“独门绝技”出现的真正原因，但我们可以确定的是： 大多数人对FSD的理解都错了，FSD在雨天、夜晚时并没有多少退步，在采用E2E架构后反而更加安全 。

四、在交通路况非常复杂时，纯视觉方案不够安全？

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

交通博弈一直是自动驾驶系统的一大难点，因为这最考验系统的“智能”。哪怕看得见，如果看不懂，想不明白，还是会在交通博弈中面临危险。这也就是为什么我们常说“城区”的智驾要比“高速”的智驾更加难解决，大多数厂商的数据也一定是城市比高速更差一些。那么，从FSD的数据中我们可以看出什么呢？

1. 处理复杂交通并不需要传感器冗余。 我们可以发现v11的三个版本中，有两个在交通中的表现是更差的。然而，从E2E开始，在复杂交通中的v12反而显现出显著超越平均水平的能力，相比于DAC的3个版本，展现出了了4-10倍的安全性跃迁。这种优势是非常非常反直觉的，我们往往会质疑纯视觉方案在复杂交通下能否“保持正常水平”，谁能想到当FSD进入E2E架构后，处理复杂交通反而直接从“弱项”转化成了“强项”呢？这项数据告诉印证了一个道理：城市交通车速其实并不快，路面情况也相对较好，同时也并不属于极端天气（信息利用率不会出现衰减），因此对于E2E的大模型来说这就是一个“理想情况”，而不是“最差情况”。

2. 智能的跃升，对于城市交通驾驶有关键性作用。 在城市交通中，行驶速度往往更慢，路况虽然复杂，但是传感器采集的信息量并不会有明显衰减。然而，城市交通中往往代表着更多的交通参与者：自车与社会车、行人的交互、意图推理、以及路权博弈等，都需要极高的智能。而E2E架构相比DAC架构最大的区别就是保留了上游的微妙信息，这些信息显然正是城市交通中的安全驾驶所迫切需要的。也正因如此，E2E模型在信息高保真的情况下，显然尤其擅长推理交通参与者的意图，擅长参与路权博弈，也更擅长处理复杂的交通情况。也就是说，又一次的，大多数对FSD的理解错了，复杂交通是E2E架构的强项，而不是弱项。

这种数据在现实中也得到了印证：在北美车主的一次针对性测试中，测试人员会多次突然从一辆白色车辆后面跑出来，但只是站在路边，并不会跑到车辆正前方。这主要是为了测试FSD是否会执行“礼让性停车”。要注意的是，停车或者不停车严格来说都是正确的，因为行人在路边停止行进了，而行人的意图其实是不明确的。当车辆停下后，测试人员会挥手示意，让FSD系统先行，也就是通过手势向FSD表明他的真实意图。我们可以看出，v12.3.3可以在四次停车中，两次成功识别行人的手势。在这次实验中，行人的微妙肢体语言与FSD的行为产生了高度相关性。在DAC架构中，我们从来没有见过FSD展现出这种能力。需要提到的是，这是大模型在训练中无意领悟的新能力，FSD团队并没有刻意的训练行人的手势识别。

特斯拉fsd纯视觉用了几个摄像头,特斯拉fsd纯视觉技术原理

特斯拉fsd纯视觉技术原理 (特斯拉美国的纯视觉fsd版本)

一、背景信息

二、强光或逆光情况下，纯视觉方案的安全性如何？

三、雨天路面反光、夜晚视野变差等等情况，纯视觉方案怎么办？

四、在交通路况非常复杂时，纯视觉方案不够安全？