FSD Rewrite：特斯拉的模仿游戏_文章

42号车库

2020-11-27

关注

FSD Rewrite：特斯拉的模仿游戏

文章

2020 年 10 月 23 日，FSD Beta 软件小范围推送的第二天，特斯拉车主 Kim Paquette 在推特上传了一段视频，视频中的 Model 3 在无人为接管下通过了环岛，其中包含一次处理得还算不错的停车让行，顺利通过这一场景后她开心地拍了拍 Model 3 的方向盘。

正在加载视频播放器。

当前时间 0:00

时长 0:00

加载完成: 0%

媒体流类型直播

剩余时间 0:00

另一个视频里，网友 Brandonee916 将全新的可视化 UI 上传至网络，色彩鲜艳的开发者形态界面中路口环境一览无余，评论区的网友不禁感叹新版软件的感知范围大幅提升。

在前一天的 22 号晚上，一位 Model X 用户和他的好哥们亲眼见证爱车完成了第一次流畅的路口无保护左转，车辆经过路口的无车道线区域并准确驶入左转车道后两人在车内开心地击掌庆祝。

大家期待已久的街道驾驶功能忽然间在 FSD Beta 上「一蹴而就」，一时间，随着越来越多 FSD Beta 演示视频的出现，激动与兴奋的情绪在特斯拉用户和粉丝群体中迅速蔓延。

这种兴奋不仅因为 FSD Beta 街道驾驶功能表现出色，还因为人们意识到 FSD 名称含义下的「Full Self-Driving」完全自动驾驶似乎真的要来了。

而在这背后，是 FSD 有史以来最大的一次的更新，或者更准确点 ——Rewrite（重写)。

01 始于 2016 年的铺垫

2019 年 4 月 22 日，特斯拉在自动驾驶日上公布了自家的 HW 3.0 自动驾驶芯片，硬件参数中最耀眼的莫过于两颗神经网络处理器带来的 72 TOPS 的算力。

硬件介绍中提到在神经网络的加速运算下，这块 HW 3.0 芯片图像处理能力为 2,100 FPS，对比之下浮点运算能力为 600 GFLOPS 的 GPU 仅能做到 17 FPS，神经网络芯片加速运算下的图像处理优势一目了然。

为了做出一块业界最强的自动驾驶芯片，特斯拉在研发准备期间先后请来了数位大师级人物。

HW 3.0 这个业界首块为神经网络运算而打造的车规级自动驾驶芯片始于 2016 年。在那一年特斯拉迎来了在半导体行业从业 40 年、主导研发了 iPhone 5S 上首个 64 位架构移动端处理器的前苹果芯片架构师 Pete Bannon，而在更早的 2015 年，传奇芯片架构师 Jim Keller 也离开 AMD 加入了特斯拉。

在大师们带领的精英团队的共同努力下，HW 3.0 自研芯片项目从开始招募人员到芯片进入研发，再到量产大规模装车的过程仅用时 3 年，而且 HW 3.0 至今仍然是市面上算力最高的量产车规级自动驾驶芯片。

但 HW 3.0 芯片在 2019 年上车后，FSD 功能却并未迎来脱胎换骨的能力提升。不过如果你回看 HW 3.0 的发布会内容，原因并不难寻 —— 这是一块面对神经网络打造的芯片。而 FSD 那时候在软件层面还未完成向神经网络结构的转化，直到重写的 FSD Beta 面世。

这次重写对于 FSD 意义重大，神经网络大显身手下的新版软件让特斯拉的视觉方案得到了大幅的提升，甚至如果看完后面的内容，你会明白正是有这次改动，Full Self-Driving 才真正有了实现的可能。

For human, by human

2019 年的特斯拉自动驾驶日上，特斯拉 AI 高级总监 Andrej Karpathy 说：

「我想强调一下，在座中驾车至此的，你们靠的是视觉与神经网络的协同运作，而非眼中发射激光束来感知路况。」

同样在当天会议中，马斯克还提及了一个现实问题：全世界的道路都是为人类驾驶而设计的。

在这两番言论背后其实可以感受到这么一层隐含的意思：驾驶是人类行为，道路是为人类设计，如果能具备和人类一样的感知与驾驶逻辑，那这就是一套通用的自动驾驶方案。

某种程度上，特斯拉就是这么做的。

「视觉是最好的感知」

马斯克多次在公开场合表现出对激光雷达为主的自动驾驶感知方案的不屑。

因为通过雷达，你只能知道那儿有个东西，但你无法知道它是什么，它就像一个盲杖。

他甚至都不看好激光雷达在自动驾驶领域的价值。

「expensive、unnecessary」，在马斯克看来，激光雷达之于辅助驾驶仿佛买一台 RED 做监控摄像头，昂贵且没有必要。

「They're all gonna dump Lidar, mark my words.」这是他在自动驾驶日上的原话。

作为视觉感知方案上配置最复杂也是路线最为激进的企业，特斯拉目前所有在售特斯拉车型都搭载了 6 个方向的 8 颗摄像头。

马斯克认为，视觉是信息密度以及信息量最大的驾驶感知途径。灯光、颜色、二维图案、物体类型等众多信息都包含在视觉里，人类靠视觉就可以完成驾驶。

道理虽然如此，但 Robotaxi 行业的专业自动驾驶玩家却几乎都采用了激光雷达方案。而就 FSD 改版前所展现出的能力也的确撑不起马斯克的「视觉至上」言论。

那马斯克的路线错了吗？

现在这个节点上，我并不这么认为。因为特斯拉在老版本 FSD 上对于视觉感知能力的挖掘离马斯克的想法或者说离人眼感知水平的差距还有十万八千里。视觉路线是有说服力的，只是特斯拉的完成度还不够。

事实似乎也证明了这点。在没有任何的硬件改动升级下，FSD Beta 此次在视觉感知层面展现出了跨越级的惊人进步。

不过，这背后到底发生了什么？

02 神经网络下的升维视觉

今年 2 月的 ScaledML2020 （Scaled Machine Learning Conference）会议上，特斯拉 AI 高级总监 Andrej Karpathy 用他一贯快到起飞的语速花了 30 分钟介绍特斯拉的自动驾驶内容，其中的第三个章节叫「Bird's Eye View networks」。

此前的特斯拉视觉识别预测是这么做的：

首先，由车辆摄像头获取道路环境的 2D 图像，然后图像被送至特征提取部分，即「Backbone」。然后在 2D 的像素空间下再对特征进行识别区分以及道路环境预测。

比如路肩探测，实际的效果是这样的：

「You just can't drive on this raw prediction of these edges and these 2D pixel coordinate systems.」Andrej 如是说，仅靠这些粗糙的路肩图像和 2D 像素坐标系还不能作为驾驶的参考。

于是在此基础上，特斯拉做出了「Bird's Eye View」。

依然还是靠摄像头，捕捉的依然是 2D 图像。只不过这次，特斯拉动用了 5 个方向的摄像头，并将捕获的 2D 图像转化为 3D 素材，而这些模拟出的 3D 素材在一个叫「Occupency Tracker」（大概意是实物建模器）的部分进行拼接，完成拼接后最后自上而下投影至 Z+ 平面，如鸟瞰图一般。

一方面这个数据会以可视化的形式显示在中控 UI 上，另一方面这一环境建模数据也将作为驾驶决策的参考。

不同摄像头之间的「拼接」说起来好像没什么，实际上可并非如此。Andrej 表示不同摄像头的视角不一样，同一特征在不同画面中的轮廓是不一致的，拼接过程要把各个特征匹配对齐。而与此同时还要把各个视角素材的时间轴做好匹配，并在车辆行驶中将「过去时」里已经构建好的环境与「现在时」构建的环境做连续拼接。

3D + 时间轴，这就是马斯克在自动驾驶日上说的「4D 视觉」。

Andrej 表示写「Occupency Tracker」代码的过程中要对拼接部分设定大量机器学习网络的 Hyperparameter（超参数）而且存在大量的 error-prone code（易变代码），其工作非常复杂繁琐，开发难度很大。

所以软件团队希望用别的方式来替代「Occupency Tracker」做探测环境建模的事情。

Software 2.0

Autopilot 软件栈中存在 1.0 代码和 2.0 代码，它们所组成的软件栈负责处理各类传感器输入的信号，包括摄像头、毫米波雷达、超声波雷达和 IMU 惯性测量单元的数据，这些原始的传感器数据经过软件的处理最后输出为车辆的加减速以及转向等驾驶决策，你可以简单地将软件理解为自动驾驶系统的脑。

其中 1.0 部分为人类程序员用 C++ 语言创建且有确定功能的代码，前面提到的「Occupency Tracker」就属于 1.0 代码。官方的介绍中，这部分都是「死代码」。

2.0 部分就完全不一样了，Andrej 表示 2.0 部分如同一个编译器，它能消化输入的数据集并输出神经网络代码。而且你可以把 1.0 软件的代码库放到 2.0 软件的代码库下运行，所以随着 2.0 软件不断「吞并吸收」1.0 软件，1.0 软件越来越多的「死代码」逐渐被神经网络所取代。

而具备深度学习能力的神经网络把原有 1.0 软件「死代码」做的工作，做得更上了不止一层楼。

以 4D 视觉为例，神经网络结构下的感知已然今非昔比。

系统依然调用 5 个方向的摄像头图像，之后素材依然要经过特征提取部分，但与之前不同的是，2D 到 4D 环境的拼接建模工作不再由「Occupency Tracker」来完成，取而代之的是一套神经网络融合层。

融合层把摄像头之间的 2D 图像拼接成 4D 并转化至「bird's eye view」，完成粗建模。然后再经「Temporal module」进行平滑处理，优化为精建模。

精建模素材再经「BEV（Bird's Eye View） Net」解码，构造出最终用于驾驶决策并显示于中控上的环境特征。

像道路轮廓探测，原始素材经层层处理，最终产出一个道路环境自上而下的 Z+ 向投影图。而基于这个投影图来做的环境预测，其效果提升堪称肉眼可见的。

上图是特斯拉车辆在一个路口捕捉到的不同摄像头画面，其下半部几张不同来源的路口轮廓图，图中小蓝点即为车辆所在位置。

其中左下角图片为路口的实际轮廓，而右下角这张为 2D 视觉下构建出的路口轮廓，可以看出来车辆周围的环境轮廓还勉强有那么几分相似，但远一点的地方预测几乎完全失真，用「高度近视」来形容一点也不为过。

Andrej 直言不讳地表示这种效果的环境预测数据就是垃圾，毫无价值。而对于这种结果，Andrej 也道出了其中缘由：

2D 视觉中的景深识别是基于像素的，其精度覆盖范围很小，近车端精度还行，但是远一点的区域尤其是画面中地平线附近的像素，一丁点的计算不准可能导致数米的道路预测偏差。

言外之意，这是 2D 像素景深识别的「先天残疾」。

中间这张与实际路口轮廓匹配度很高的轮廓图你应该也猜到了，它是由改进后的 4D 视觉构建而成。而从 2D 到 4D，中间的 3D 是治好近视的关键。

景深测算曲线救国

刚才有说过景深测算是 2D 视觉的一个硬伤，对此业界的常规做法是将景测算交由其他传感器，比如激光雷达来做，再将感知数据融合。

虽然特斯拉一向是铁骨铮铮，打死不用激光雷达的人设，但在 FSD Beta 上他们其实偷偷做了一套「影像版激光雷达」方案。

特斯拉的开发者们有这样的一种思路：之前基于视觉的景深测算效果不好，很大程度上是因为「数据的表达形式」，也就是 2D 像素坐标这一框架限制了视觉的能力上限。

而他们的解决办法是用影像的手段「模仿」激光雷达。具体的步骤是这样的：

通过视觉景深测算的方法从摄像头图像中测算出像素景深；
得到像素景深后将 2D 图像反投影为 3D 点云，得到「Pseudo-Lidar」—— 拟激光雷达数据；
得到的拟激光雷达数据通过用于 Lidar 数据的算法做解析，构造出新的景深预测。

这一思路清奇的「模仿」帮助特斯拉在没有激光雷达硬件的前提下产出了「类激光雷达」的 3D 预测效果，其中像素景深反投影 3D 点云的步骤至关重要。

新的手段相比之前提供了更高的上限，但接近这个上限，「类」的程度能达到多少，还是要取决于第一步中像素景深的精度。它是后面所有数据的母数据，是景深测算的原始标尺。

2019 年特斯拉自动驾驶日上 Andrej 有简单介绍过特斯拉团队在通过神经网络的自学习手段对这一过程进行优化。

其大致思路是这样的：系统的神经网络按要求在无标记的视频素材中做全画面像素的连续性景深预测，而这些生成的预测图像将与实际的视频素材进行连续的逐帧匹配比对，而连续性匹配达标的基本前提就是最原始画面的景深计算是正确的，或者说精度是 OK 的。

在验证中，特斯拉将雷达测算的物体位置标记为点，将视觉测算的位置标记为立方体，在官方的演示素材里两者已经展现出不错的跟随匹配度。

所以面对网络上流传的带着激光雷达的特斯拉测试车，不要那么肯定地觉得特斯拉转投激光雷达了，或许人家是在测试拟激光雷达视觉方案与激光雷达方案的测距匹配度。

另一个有趣的事情是 2019 年外媒 THE ROBOTREPORT 报道的一则内容中，康奈尔大学的研究团队提出了用拟激光雷达手段提高视觉感知精度的方案，思路与特斯拉不尽相同。而经过这些研究人员的实测对比验证，拟激光雷达手段的视觉方案在位置探测精度上与真正的激光雷达效果非常接近。

而且研究人员在采访中也提到了相比仅靠前摄，如果能在「Bird's eye view」下对环境素材进行解析，其精度可以提高 3 倍以上。

相同的技术名词、类似的手段、一致的结论，这个研究团队和特斯拉的关系不禁让人浮想联翩，然而八卦之外，能看出来的是在视觉方案探索的道路上已经有人和特斯拉想到了一起。

03 最强大脑有了，还要学东西

人类天生就有视觉但并非天生会开车，而从不会到会的过程其实脑袋里主要增加了两个大方向的能力：

对道路环境的认知和预判
逐渐熟练的驾驶逻辑

基于神经网络的 FSD 学车的逻辑与这不尽相同。

HW 3.0 芯片让特斯拉有了量产车里的最强大脑，4D 视觉让特斯拉看得更远、更广和更准，但所谓感知，有「感」亦要有「知」，特斯拉的神经网络里既有视觉神经也有思考神经，和人一样，它们也需要学习和积累认知。特斯拉寄予 Autopilot FSD 的期望是让它成为可以在全世界所有道路上驾驶的司机，这就意味着 FSD 要学的东西非常多了。

「对道路环境的认知和预判」对于电脑，往简单了说就是视觉图像识别和预测，认识各种道路上的特征，包括但不限于道路线、道路标识、道路空间、静态物体、动态物体。与人一样，神经网络识别特征也是通过「经验积累」。

两个你需要知晓的名词

在说特斯拉的机器学习系统之前还有两个东西要特别介绍一下，一个是「队列」，另一个是「影子模式」。

其中「队列」指的是特斯拉这套系统中关联的自家上路车辆，在今年 2 月份已经有约 100 万台，这个数量随着交付量的增加会继续扩大。

这些遍布全球各地的车辆对于系统而言相当于一个个智能终端，通过车载摄像头采集的道路数据可以上传系统（注：特斯拉收集的数据是去 ID 处理过的，系统不知道数据具体来自哪台车，这样可以保护用户隐私）。

也就是说通过「队列」，系统可以采集大量且多样化的道路数据。

「影子模式」则比较特殊。在「队列」车辆中除去主大脑其实还有一个「分身大脑」，它和车辆的主大脑一样可以获取车辆的各种传感器数据并输出各种预测以及驾驶决策指令。

但与主大脑不同的是，「分身大脑」内的神经网络可能是系统下放的测试版，而且它做出的预测和各类指令不会用于车辆的控制。所以即便这个测试版神经网络的预测和指令出错了也没关系，反正系统不执行。

不过系统会记录「分身大脑」产出的预测和指令的实际正确率，并用此评价测试版神经网络的好坏。而其中高错误率预测对应的路段，系统会记录下相关素材用于后续的神经网络训练和测试。

通过「影子模式」，特斯拉可以高效且安全地得到测试版神经网络的实际上路效果。

数据驱动的 AI 训练场

针对神经网络的机器学习，特斯拉准备了一套名为 DATA ENGINE 的闭环系统，其结构明确而且机制非常完善。

这套系统的运作大致是这样的：系统上传了某一 Autopilot 无法妥善通过场景的素材，其中一些在「影子模式」下报错率很高，我称这部分素材为初始素材。

接下来系统一方面会将初始素材收入「单元测试」素材库，另一方面系统会在「队列」中搜索并要求回传类似素材，回传的这部分素材可以称作海选素材。海选素材的数量非常可观，但它们与初始素材的匹配度并不会非常高，经过筛选标记后，海选素材中与初始素材匹配度高的也会被放入「单元测试」素材库。如此一来针对初始素材的源场景，系统快速地收集了大量类似场景下的「单元测试」素材。

在这之后，特斯拉会利用「单元测试」素材对神经网络进行专项的离线训练和测试，相关神经网络经训练并通过「单元测试」后对「单元测试」素材中的源场景具备了更强的处理能力。

通过「单元测试」后的神经网络，特斯拉又会将其下放至「队列」并在「影子模式」下进行验证。针对再出现的不足，上述流程继续循环。

04 流程背后：数据和训练机制

神经网络的核心功能之一是基于图像的特征识别，所以在特斯拉神经网络的深度学习过程中很多内容都与此相关。

以停止标识的识别为例，首先需要人为标记素材中的停止标识，让系统认识这个图案，明白素材标记位置这种红白像素的排列就是停止标识。

完成这一过程后，系统就可以识别与图片素材相似度高的停止标识。

不过大千世界无奇不有，现实世界情况非常复杂。

依然以停止标识为例，停止标识有很多种不同的图案样式，出现的形式也千奇百怪，还有被遮挡、带灯光、有限定触发条件等等众多的奇葩场景。

非线性相关的「见多识广」

要想系统能识别这些差异化的同类特征，方法只有一个 —— 收集以上场景的素材，用它们来训练神经网络。

简单来说，你收集素材越多，素材覆盖的场景越全，训练后的神经网络就越见多识广，它能应对的场景自然也就越多。

但这个过程中又有一个不能忽略问题 —— 数据的有效性。

神经网络起步的阶段，其学习的场景还不多，所以寻找「单元测试」素材难度并不大。但随着神经网络学习的场景越来越多，经验越来越丰富，大部分的场景它都可以识别通过了，所以这时候收集的数据很多都是重复的无用数据。

神经网络不会平白无故掌握新技能，只有给它提供与之前不一样的「单元测试」素材，它才能学到新东西。

这些与之前不一样的罕见场景，业内通常称之为 corner case。

在机器学习的过程中 corner case 越往后越少，或者换种表达，越往后神经网络要进步所需的总数据量就越大，这种增加是呈指数模型增长的。

而这也是为什么「行驶里程」在各家的自动驾驶中都是重中之重。

特斯拉今年 4 月公布其收集的行驶数据为 30 亿英里。作为对比，Waymo 今年 1 月公布的里程为 0.2 亿英里。

需要自动化的不仅是造车

特斯拉的整体神经系统由 48 条神经网络组成，包含 1,000 个独立的神经网络预测单元。

其中针对单个特征识别神经网络的训练和测试特斯拉专门建立了前面提到的「单元测试」。

「单元测试」是特斯拉从测试驱动的开发流程中汲取灵感而来，你可以将它理解为神经网络的同类特征多场景识别统考。

在这类统考中，特斯拉会列出多种场景的考题，神经网络必须在所有单项中都达到对应的准确率才可以通过考试。

针对没有通过测试的单项场景，开发者会继续对神经网络进行该场景的素材循环训练，直到其识别的准确率达到设定要求。

当神经网络通过所有既定测试时，针对这一个特征识别的神经网络就完成从创建到可推送至影子模式的过程了。

但如前面所说，系统内需要识别的特征类型有约 1,000 个，每一个都需要进行这样的「单元测试」，训练需要 70,000 GPU 小时。

相比部分企业在这方面使用人海战术，以上的训练任务在特斯拉内部仅由一支几十人规模的精英团队负责完成。

这样的训练效率背后，是高度自动化的训练机制。

为此特斯拉 AI 团队正在努力搭建一套用于训练神经元网络的模块化「快训系统」，系统中包含多种不同用途的神经网络初始模板。

如果需要开发的新神经网络属于其中的某一大类，只需选择对应的模板自定义搭配即可快速生成初始文件。

在这之后，基于数据的神经网络学习循环，即搜索训练素材、标记特征、收集「单元测试」素材、完成「单元测试」流程、跑影子模式验证并循环的这个流程，「快训系统」会用尽可能多的自动化机制来完成。

而特斯拉最终期望达成的效果就是开发者只需要调用模板做一个新神经网络单元，之后的训练流程可以在设定下由系统全自动完成。

不过神经系统训练量依然巨大。

推特用户 James Wang 进行了粗略计算，如果在 40% 的浮点运算效率下用英伟达 V100 显卡来做这个事情，140 petaFLOP/s 的速度运行一天即为特斯拉每天的浮点运算需求量。

而这样运算量如果希望在 3 天内完成，需要超过 1,000 个 V100 显卡，该系统的费用约为 1,500 万美金。

所以不难看出，AI 训练是既耗时又费钱。而面对这种情况，特斯拉准备了专门的硬件，一套性能极其夸张的超算系统。

Dojo：最强学习机

在自动驾驶日上马斯克透露特斯拉正在打造一台用于自家 AI 训练的超算，配合相关软件，特斯拉计划用其实现自动化无监督的视频级 AI 机器学习训练。

马斯克表示，Dojo 不是集群 GPU 的架构，它将用特斯拉自研的芯片和专门为神经网络优化的计算机架构，这个超算系统预计会在明年面世。

今年 8 月，马斯克透露 Dojo 的浮点运算能力有望达 1 exaFLOP/s 级别。「exa」是 10 的 18 次方，目前全球没有任何一套超算系统的运算能力能达 1 exaFLOP，其中最接近的是日本的 Fugaku 超算，对应数据为 442010 TFlop/s，即 0.442 exaFlop/s。

如果有 1 exaFLOP/s 的计算能力，完成一次前面所说的神经系统训练只需要不到 4 小时。