首页推荐
重方法还是看疗效?解读现阶段各品牌端到端智驾策略
话题文章

端到端这一名词,在中国新能源车市场彻底火了

出门参加活动遇到相熟的媒体同行老师,不唠上点端到端的内容,似乎都不太配被称之为合格的新能源车媒体。

世界变化得就是这么快——一年前,各家冥思苦想,到底用什么样的方法,才能让车自己在城里就能跑起来;一年后,各家撂下狠话:半年通全国,三年全球通。

在被端到端( end-to-end )这一名词连番轰炸的今天,智能驾驶领域仿佛被摁下了快进键,昨天尚未理解端到端是什么的用户,今天便已经收到了各种端到端的智驾版本软件推送,如同刚在和爱迪生争论交流电与直流电好坏的特斯拉,突然被送到了 21 世纪,这个人人都在用着交流电的时代。

伴随着各家从高精地图开城、有图/无图的争论不休,到现如今开始集体“冲刺”端到端。面对这新一轮的技术冲击,看似同样选择了端到端路线的各个车企,细看却大有不同。相信能够接受端到端、消化端到端技术路线的你,也会对各家不同的端到端智驾策略感到好奇。

P.S. 我们此前也和大家分享过端到端技术的理解和评价,如若想对端到端内容进行回顾,推荐点击下方链接继续阅读:

-华为乾崑:半“端”半“模”

如果我们统一把端到端之前的智驾路线统称为模块化智驾的话,在华为 ADS 3.0 的身上,你既可以找到端到端的踪迹,也能嗅到模块化残留下来的蛛丝马迹。

ADS 3.0 结构示意图

相较于 ADS 2.0 全国都能开从立项到实现的迅速和惊艳,ADS 3.0 给予我们更多的感觉是“求稳”——

当使用端到端时,智驾会变得更“类人”,但还是无法做到完全取代人。而端到端本身也要通过大批量的优质视频片段进行训练,以期达到更“类人”的效果。所以在“类人”和“累人”之间,华为乾崑选择了在决策端加入本能安全网络,对端到端网络生成的轨迹进行介入和约束。

这也意味着,相对于目前理想化的、直接干掉所有层级,由一个端到端网络接收感知数据并直接输出轨迹的 One Model 而言,华为乾崑依旧保留了其在决策层方面和安全方面的网络,半“端”半“模” 也由此而来。

事实上,“下限”二字也是余承东着重强调的,随着智驾的能力上限逐渐增强的同时,也要关注下限是否有波动和变化。因此我们依旧能在 ADS 3.0 上看到华为乾崑针对安全规则方面的独立网络说明。

回到 ADS 3.0 的技术架构上,华为乾崑从 1.0 时代的 BEV 、2.0 时代的 BEV+OCC、到 3.0 成为了独立的 GOD 感知神经网络。华为乾崑称其为“从 2D 感知走向 3D 感知,从物体识别到场景理解”。

当然,ADS 3.0 时代下的 GOD 网络,与此前的 BEV 和 OCC 不是互相取代的关系。事实上从上图中的小字也可以看出,ADS 的进化过程中,看似是 BEV 和 OCC 网络模块消失了,但其对于道路结构、障碍物的识别特征依旧保留着。而 GOD 感知神经网络承担的职责,则是融合了障碍感知、道路结构理解和规划路径,并针对实况行为进行预判——

从感知直接到输出轨迹,这又到了我们熟悉的端到端理论模块。而由此我们也可以看出,华为乾崑 ADS 3.0 更像是在端到端与模块化之间选择了折中的操作,仅在部分模块上实现了端到端,网上也有人称之为“模块化端到端”。

-理想:让智驾学会像人一样思考

“我们能不能教会 NOA 系统像人一样看得懂导航地图,而不是仅仅用感知结果进行判断?”李想在某次与理想自动驾驶负责人 @郎咸朋 讨论时发出这样的一句疑问。

这里我们借用郎博的话语,NOA 如果想学会怎么“做人”,那就得用 NOA 能理解的话术去解读人类司机的决策。郎博引用了《思考,快与慢》中的理论,即人的决策过程通常由快(直觉性判断)与慢(逻辑性分析)两套系统产出构成——

如果换算成 NOA 能听懂的话,即 NOA 如果想学会“做人”,那就需要一套跑得快、判断快的模型,和一套跑得慢、但有复杂处理能力的模型。它们像齿轮一样紧密结合在一起,又可以分工合作,该快得快,该慢就慢。

这便是理想对于未来自动驾驶的早鸟思考: 端到端网络充当系统模型 1 ,VLM 视觉语言模型充当系统模型 2   。

何为端到端,是哪端到哪端?理解其实非常简单——一端是传感器,而另一端,则是直接了断的行驶路径输出。端到端模型的输入主要由摄像头和激光雷达构成,多传感器特征经过 CNN 主干网络的提取、融合,投影至 BEV 空间。

为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过 Transformer 模型的编码,与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。

多任务输出在一体化的模型中得以实现,中间没有规则介入,因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。在实际驾驶中,端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。

而在理想的另一半构思中,DriveVLM 会充当那套慢速的齿轮,通过读取突发紧急情况、复杂的交通或不熟悉的路段画面,进行更深度的决策。

比如下图中的 DriveVLM,会根据路面信息输出包括天气、道路类型、车道选择建议、驾驶决策在内的“类人”思考。

VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成,将 Prompt(提示词)文本进行 Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统 1 辅助控制车辆。

端到端负责快判断,VLM 负责慢思考 —— VLM 模型可以识别路面平整度、光线等环境信息,提示系统 1 控制车速,确保驾驶安全舒适。

VLM 模型也具备更强的导航地图理解能力,可以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM 模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。

由此我们也可以得出结论——理想情况下,端到端网络从感知到输出路径开始行车的这一过程都是不需要 VLM 介入决策层的,并且这一趋势可以通过大规模的视频片段投入训练去压缩 VLM 的介入几率;但当端到端面对极端场景时,VLM 又会介入决策层面“帮助”端到端进行判断。

从这一角度而言,理想在决策层面也和华为乾崑相似,都有着一个专门的网络进行约束,但两者在细分上又有所不同:理想的端到端模型也能自行决策,必要情况时 VLM 再介入;华为乾崑则是 GOD 负责感知与规划路径,决策则由 PDP + 本能安全网络组成。而看似两者的端到端网络技术架构都是融合为一张端到端的“大网”,但实际上网内依旧有着 BEV、OCC 等特征在对外“发力”。

-小鹏:三个“和尚”挑水喝

试完了 FSD,试完了 Waymo,何小鹏转回国内宣布:小鹏是全球唯二实现端到端大模型量产的车企——在何小鹏的眼中,推出端到端之后的小鹏,与特斯拉处于同一起跑线上。

而小鹏的端到端架构则宣传得更具体形象,由原先的感知-规划-控制转变为 XNet(眼睛)、XBrain(大脑)、XPlanner(小脑)三部分组成。

从架构上来说,小鹏和华为乾崑同属于模块化的端到端,何小鹏也将其称之为“渐进式”端到端,“实际上,我相信特斯拉也是渐进的路线。”

小鹏提出的三个概念:大脑、小脑、眼睛。其中:

  • 大脑用来推测环境和理解环境,进而做出路径规划决策,这一点上像是华为乾崑和理想两者的“折中”,将理解和决策两部分进行了整合;
  • 眼睛则是用来“看”周围的环境,其中涉及到感知模块,将 BEV 和 OCC 整合其中;
  • 小脑则是用来控制车辆如何走得“舒服”,令驾驶的策略更趋向于人类司机的驾驶,减少顿挫、卡死和接管。

可以看到,从原本的感知-规划-控制的三大模块里,小鹏的端到端是从架构上发起“更像人”的思考,以人类的行动决策所需要的器官,即眼睛、大脑和小脑对原先的模块进行切割,重组融合为三大神经网络。小鹏也用三等圆组成三角来作为图示,颇有些“三个和尚挑水喝”的既视感。

但同华为乾崑与理想一致的,是原先感知-规划-控制时代的产物并没有消失,而是作为新的神经网络中的一部分继续发光发热。

“以前可能有 30% 的事情,其中 25% 的事情白做了,但是原来还有 75% 或者 80% 也是有用的。”何小鹏认为,从高精地图到无图再到端到端时代,并不能因为说切换路线,就认为此前的内容就是白做了。

这也和郎咸朋的看法相似,智驾发展是一个循序渐进的过程,不做前面这些事,就不太可能能直接切去做后边端到端的事情。 

作者结语 ... /

“端到端自动驾驶技术范式,从 0-1 很难,很慢。但从 1-100 会非常快。”

这是端到端的魅力所在,端到端的出现对智驾上限的提升是肉眼可见的,而伴随着新一轮的路线切换,竞争和争论也会随之开始——“One model 才是真正的端到端!”“模块化端到端才能为安全兜底!”

事实上,每一轮的新技术路线都会伴随着这样或那样的争议,但唯有一点是永恒不变的——爱迪生与特斯拉对于直流电和交流电优劣的争论,并未影响到后世交流电的大规模使用;而一个能带来明显能力提升的路线,我们要做的,便是静待其发展,不以方案和 PPT 分高低,而是以用户体验定胜负。

写评论
积分赞赏
点赞
评论区
  • 收藏
  • 举报
  • 加入黑名单
回到顶部
  • 全部评论2 条
  • 只看作者
  • 最热
  • 最新
  • 最早

最近流行的新词语端味浓不浓。