家家都喊“端到端”，它到底是什么？_话题文章

张一根

日榜 TOP{{detailStore.day_rank}}

月榜 TOP{{detailStore.week_rank}}

管理

家家都喊“端到端”，它到底是什么？

话题文章

端到端大模型即将改写这个智驾圈？

以特斯拉对北美车主全面开放 FSD V12 试用为标志，迎来了特斯拉的 ChatGPT 时刻，也迎来了高阶智驾破圈扩散的新阶段技术。

无独有偶，在前段时间的小鹏 AI DAY 上，何小鹏也说到过：“小鹏是国内首个将端到端大模型量产上车的公司”。

在华为智能汽车解决方案发布会上，华为也表示 ADS 3.0 将采用端到端架构，升级到 GOD（通用障碍物识别）和 PDP（预测决策规控）网络；小米 SU7 也表示其为首个量产端到端记忆泊车的车型......

显然，随着前几年的“卷”硬件之后，智驾圈又要迎来新一轮的军备竞赛了。

那么这个“端到端”到底是什么？能够为智驾带来什么样的新体验？就让我们来先行观察，再尝试解答一番。

传统的智驾模型方案为什么不行？

在尝试解读“端到端”之前，我想对于智驾传统的方案，是有必要的溯源和思考的。

说到底，智能驾驶最终方案就是要像人一样，也就是看到了后知道如何去做。“看”和“如何去做”对应在智驾系统里的就是“感知”和“规控”，利用传感器感知周围环境，然后去规划后续的动作。

其中“感知”看到的东西，也就是数据，需要通过对应的感知算法进行解析后，才知道看到的东西是什么，有多少，离我们多远。而“算法”其实就像是我们脑子里的认知一样，需要在一定学习或者写入后才会明白。

之后将这些处理过的感知数据，再输入给规控算法进行再处理，结合导航地图，就能规划接下来可行驶的行驶路径。

在这一整套层层递进的关系当中，目前市面上的智驾系统，大多数采用的是模块化架构，也就是把感知和规划分为了独立的模型，在这相对大的模型之下，又可能是以多种模型组合而成的。

例如感知，其中包含了分类、追踪、定位等模型，各司其职。即一个模型中，可能会包含许多模型，每个模型都要专门进行训练、优化、迭代。

而下游的一些规控模型也非常依赖工程师编写大量代码去制定行驶规则，这就导致随着模型的不断进化，参数量也会不断的增加，所需的研发人员也会激增，研发投入随之更高。

并且以规则为底层，被“束缚”住的智驾体验也很难像人一样，面对突发场景无法更好地随机应对。

另一方面，传统的模块化架构可以看做是一种流水线，很多模型的输入参数，其实是前级模型的输出结果。如果前级模型输出的结果有误差，就会影响下一级模型的输出，导致连锁反应，最终影响智驾系统的性能。

这也比较好理解，负责决策的人是不能直接看到环境的，需要“观察员”转告，因此将不可避免地产生误差，有点像“你画我猜”的感觉。

因此，消费者想让智驾更加“拟人”，又面对国内复杂的路况，单靠大量“小模型们”，以及工程师们的手打代码，还是难以实现智驾途中穷尽的各种场景以及突发事件的。

端到端的好和坏

特斯拉、小鹏、华为所提到的端到端大模型，简单来说就是用性能更强的“大模型”来取代“小模型们”，用一个或者是两三个模块实现所用功能，“所看即所得”。

比如很火的 ChatGPT ，它就是一个典型的端到端大模型，输入文字语句，直接就能得到回答。

从理论角度分析，端到端大模型不同于现阶段的智驾系统（模块化架构），需要进行流水线般在多个模块运行处理得到最终结果。端到端就像是一个盒子，把数据丢进去，把指令生成出来，基于数据驱动的表现给人非常直观的反馈。

按照车企的描述来说，端到端大模型就是一个无上限的学习机器，既能计算大量数据，又能计算复杂数据，说白了就是 AI 赋能了智驾。

也可以理解为，传统的智驾系统是根据逻辑行车，而端到端则是模拟人类本身行车。

不过，从在目前市场来看，模块化架构依然是目前智驾系统的主流，可见端到端架构依然存在一些关键的问题未能解决。

第一点就是“可解释性差”，也叫“黑盒”属性。简单理解就是，你输入数据或者问题，它能直接给到你答案和计算结果，但中间的过程却一概不知，或者说是方法是什么，理由又是什么，都不知道。

端到端就是这种可解释性很差的模型，对应在智驾层面，就会导致了一系列的问题，首当其冲的就是安全性。

例如在直线行驶时，智驾突然变道，附近既没有障碍物，前方也没有慢车，显得非常莫名其妙。面对这种情况，工程师们也不知道它为什么会出差错，到底是哪一部分出了问题，又该如何去避免。

只能通过不断的训练、调参、增加参数量，来尽可能地提高模型的准确率，但最终能否达到 100% 的安全，还是要打一个问号。

其实从另一个方面来想，智驾系统想要做到 100% 端到端大模型架构，其实还是比较困难。最重要的点就是没有规则兜底的端到端，下限不见也不可控，难以确保它的稳定可靠性。

因此规则这种东西就很矛盾，一是会限制智驾的“拟人”程度，导致变成机械式的驾驶，二是如果不写入规则的话，又会导致智驾变得不可控。

说到底，如何去权衡这个“规则”也是一个值得思考的难题。

其次，端到端大模型的训练相对也会更难。传统的感知模型训练只需要经过标注的图片即可，比较容易获得。而端到端大模型则需要学习人类的驾驶行为，因此需要大量标注有驾驶行为的视频才能进行进行训练，采集和标注都很困难。

特斯拉也是依靠原有庞大的数据支撑，在 FSD V12 版本训练初期，输入超过 100 万个视频后，FSD 才开始有了良好的表现。

总的来说，端到端大模型上车确实有用，但如何去用？能发挥出几分功力，还得看各家车企的实力了。

另外还有一点我个人觉得还是要提一下，那就是“端到端”太容易被作为营销概念去做宣传，只要有条件，都能往端到端蹭一蹭。

毕竟“端到端”这个概念词就非常晦涩难懂，以至于，消费者对于“端到端”的定义，始终处在一种非常模糊的状态，难以分辨好或不好，是真或是假。

就例如特斯拉、小鹏、华为这三家车企，如果按照特斯拉的描述来看，“端到端”就应该是用一个大模型去跑通所有模块，实现直接输入到直接输出。

而从小鹏和华为的介绍来看，他们可能用得是两个或三个“大模型”分别去跑通“感知”和“规控”模块：

华为的 GOD（通用障碍物识别）网络和 PDP（预测决策规控）网络；
小鹏的 XNet 深度视觉感知神经网络、XPlaner 规划大模型以及 XBrain AI 大语言模型。

当然，这部分的原因有可能是因为要解决端到端大模型的“黑盒”属性、可解释性差与鲁棒性等问题所做出的解决方案。

因此，你要说它不是端到端，也不是，他们的确是用一个大模型跑通了独立的大模块，但你要说它的真正的端到端，也不是，毕竟还是分为了两个或三个模型。

所以说这就像市面上的大多数产品所写下字样一样：一切解释权归厂家。

军备竞赛再度打响

面对端到端的热浪来袭，显然一场围绕端到端模型的军备赛，已经展开。

在特斯拉摩拳擦掌，准备在智驾领域定义“元年”的当下，国内产业界亟需有引领者能够与其颉颃。

也是在这个背景之下，小鹏和华为率先入局，让端到端上车有了新进展。虽说还没到拉平的阶段，至少已经在紧追不舍了。

何小鹏说过，“小鹏是国内首个将端到端大模型量产上车的公司；2025 年，将在中国实现类 L4 级智驾体验。”

余承东也说过：“我认为华为 ADS 高阶智能驾驶即将改写这个行业”。

能在时间上抢占部署端到端大模型，显然是因为技术嗅觉总是先于技术选择，也因如此小鹏与华为才能占据智驾头部的位置。

当然，除了小鹏和华为之外，理想、蔚来、小米等也加入了端到端的竞赛中。虽然与小鹏华为的“全面上车” 目标不同，但慢慢也在从“点”到“面”转变当中。

不过，相比国内车企们，更有可能先得到端到端“桂冠”或是自动驾驶企业。

不管是地平线，还是毫末智行、元戎启行等自动驾驶企业，它们对于端到端的部署可能会更早且更专注一些。

就例如元戎启行早在 2023 年就成功完成端到端上车路测，并将端到端模型应用到量产车上。计划在 2024 年下半年推入消费者市场；

地平线在 2023 年也已经推出了行业首个且多项任务达到最佳 SOTA 性能的自动驾驶端到端 UniAD 的论文，并且手握多项端到端学习算法......

较于国内强劲的选手们，特斯拉也丝毫不慌，因为它有着一项至为关键的优势：训练数据的丰富性。

特斯拉遍布全球的几百万辆车辆，可以采集到足够丰富、足够多样的数据，再从中选出优质数据，用于大模型的训练。反馈到端到端大模型当中，就是可持续的优质“经验值”。

因此，如何解决海量数据问题对于国内车企以及自动驾驶企业来说也是一个挑战。

当然，拥有差异化创新也是赢得端到端竞赛的关键之一，一味地跟追难以成功。

就例如华为和小鹏的方案，通过两个到三个大模型去跑通整个智驾系统，同样是一个充满变数和可能的解决方案。

至此，我也非常期待国内车企们的端到端落地后，会产生什么样的“化学反应”，又能为智驾体验提升几度。

作者结语 ... /

时至今日，智能驾驶依然成为了新能源汽车的核心卖点之一。经历了以硬件为主导的 1.0 时代，随后是软件引领的 2.0 时代，再到如今以数据为核心的 3.0 大模型时代，就像行业走向爆发前夕一样。再面对世界的同时，国内优秀的车企们也在鼓足干劲，通过志气、勤奋和才智，引领全球汽车第二个百年变革的愿景，为弯道超车做足准备。

新出行综合社区

进主页

张一根 Lv.6

新出行认证：汽车博主

简介：国家一级退堂鼓演员

获赞

关注

粉丝

原创

车圈观察札记｜AI 狂人的特斯拉端到端会是下一个智驾风口吗？

姜硬

端到端的魔力特斯拉 FSD V12.3 到底强在哪？

张一根

毫末顾维灏：端到端大模型的研发和落地，让我们有信心把城市NOA做的更好

品牌

{{ recommend_circle[curIndex].series[0].price.price_type? recommend_circle[curIndex].series[0].price.price_text : '' }}
{{recommend_circle[curIndex].series[0].price.price_string}}