首页推荐
车圈观察札记|AI 狂人的特斯拉端到端 会是下一个智驾风口吗?
话题文章

特斯拉 FSD Beta V12 的软件代码行数从 30 万行缩减到 2000 行。

远在北美的特斯拉车主们,陷入了一场惊奇、诧异、狂欢等各种情绪组成的涡流中。情绪的来源,则是和特斯拉近期的 FSD Beta V12 一系列推送有关:

在这一次的版本更新说明中,特斯拉提到,此前负责城区智驾的堆栈已经升级为单一的端到端神经网络,而接近 30 万行 C++ 代码已经由经过数百万个视频片段的训练替代。

这是特斯拉面向普通用户的一次重磅更新,带来的影响不止是 X 上涌现的各种“民间短视频”,北美人们的热情还刮到了微博、微信等中文互联网社交平台上……

当然,端到端(end-to-end)这个词在本土市场上也不是第一次出现——事实上小米 SU7 已经宣布其为首个量产端到端记忆泊车的车型。

这很可能是 2024 年智能化领域最热门的技术词汇,或许也有可能是最热门的营销词汇。但在此之前,端到端是什么、端到端能带来什么、端到端会不会向 BEV+tranformer+OCC 那样成为国内智驾内卷的新阶段技术……诸多疑点,让我们先行观察,再尝试解答一番。

一、如何理解端到端

在尝试解读端到端的原理之前,我想对于端到端最初始的思考,是有充分必要的溯源的。

我们日常所提及的高速智驾、城区智驾,在现阶段,这两项功能的实现原理,大致可以总结如下:

首先,由车外的传感器采集路面信息数据,通过我们熟知的各种算法,如 BEV+Transformer+OCC ,本质上是将现实世界解构重绘,让车内的智能驾驶控制域先行理解现实世界中可能存在的信息;

其次,控制域根据算法解析的世界,进行车辆行进路线的规划;

最后,控制域发出指令,控制车辆的油门/刹车深度、方向盘转向等行驶参数。

上述是对于现阶段智能驾驶比较粗略的原理解析,我们在其中可以看到,控制域不能直接接收现实道路的原始数据信息,必须经由算法重绘、提取特征,才能进行后续的规控。就像是新生儿父母为宝宝打造营养辅食——小孩子(智驾控制域)不能直接消化原始的食材(现实世界信息)。

用于通用障碍物检测的占用网络详解,来自特斯拉 Autopilot 视觉负责人 Phil Duan

而上一段的陈述,显然是为了端到端大模型的登场做准备:端到端大模型,从字面意思理解,便是直接学习/提取现实世界特征,无需对数据进行多次算法加工(即感知-规划-控制),即可令智驾控制域输出行车指令。

从理论角度分析,端到端大模型上车的优势显而易见——不同于现阶段的智能驾驶需要进行流水线般在多个模块运行处理得到最终结果,端到端就像是一个盒子,把数据丢进去,把指令生成出来,基于数据驱动的表现给人非常直观的反馈。

但细心的朋友应该注意到了,我在提及端到端优点时,开头是“从理论上”。

回归到智能驾驶本质,其并不等同于自动驾驶,因此在过往、现在、甚至往后较长的一段时间里,我们都会处在“人机共驾”的状态中——智能驾驶本质是将人类司机驾驶的逻辑用算法进行分割重绘,结合感知信息,让智能驾驶尽量模拟人类司机的行驶轨迹。

问题也就出现在此:如果将人驾逻辑理解成一块完整的面包,智驾必须将人驾这块“面包”进行切割再消化,但刀法(算法)的不一,导致由于切割掉在地上的面包屑洒落或多或少。这部分没能消化的面包屑,便是智能驾驶触达的边界,即需要人类司机接管的时刻,又称 Corner Cases。

而端到端大模型,更像是直接将整块“面包”进行囫囵吞枣的操作——特斯拉当然能轻易吞吐数百万的“老司机式驾驶”视频训练片段,但如果进行全量开放后,纯粹的端到端大模型极有可能吃到“发霉的面包”。

就像最开始的 ChatGPT 般,无论好坏的互联网信息都会进行吞吐,输出错误的暴论。

因此,在特斯拉并未对此次端到端神经网络的更新做出更进一步说明时,外界也有部分猜测:特斯拉 FSD Beta V12 版本中升级的端到端神经网络并不是端到端“完全体”,其依旧保留了部分感知与规控模块的代码。

二、实际的端到端表现案例如何?

上文有提及到,在推送了 FSD Beta V12.3 以及后续版本后,大洋彼岸的北美,同样是马斯克旗下的社交软件 X 上迸发出了非常之多的“民间小视频”。

但在诸多媒体/KOC/素人发布的视频浪潮下,FSD 有一个非常耐人寻味的表现,并没有遭到更多人的提及——在某些情况下,当智驾控制域的路线规划要优于地图导航路线规划时,智驾控制域会给车辆发送行驶更优路线的指令。

在这段视频中便体现了上一段的说法:车辆并没有行驶地图导航给出的掉头路线,而是直接采用更优的左转进入目的地。

正在加载 视频播放器。
当前时间 0:00
时长 0:00
加载完成: 0%
媒体流类型 直播
剩余时间 0:00
 
1x
  • 节目段落
  • 关闭描述, 选择
  • 关闭字幕, 选择

    无论是高速 NOA 还是城区 NOA ,其本质的核心人设都是一致的,那便是地图导航位于路线规划的最高优先级,正所谓 NOA 的全称“领航辅助驾驶”,而特斯拉 FSD 却似乎违背了这一点。

    视频中的导航路线,车辆并未遵循该路线进行行驶

    在没有更近一步说明的情况下,我们尚无法根据这种行为做出更深层次的分析,但我们有着国内的内卷案例可供分析:全国都能开。

    根据目前国内一些头部智驾团队负责人的说法,“全国都能开”的功能,本质上就是一种另类的 LCC 呈现方式——

    首先意味着,当真正的“全国都能开”进行全民化普及,车辆上的 LCC 功能将有可能彻底会被 NOA/NCA 等代替;

    其次,即使是“另类的 LCC”,LCC 功能本身,便不强依赖地图导航路线信息……

    看似风马牛不相及的功能和技术路线,不同的市场环境,却几乎要走向相同的目标,不免令人有些惊讶。

    -题外话

    在最近一次的 FSD 更新推送中,特斯拉彻底取缔了“Beta”测试词汇, 原先的“ FSD Beta ”更名为 “ FSD (Supervised) ”。

    与此同时,特斯拉还删除了部分说明,如「始终保持双手握在方向盘上」、「这不会让你的车自动化运行」、删除数据采集同意协议……

    马斯克与他的特斯拉在自动驾驶的道路上走了多远,在以前或许只有他自己,或者他的团队们知道。但现在看来,似乎这位 AI 狂人,要开始向我们揭示自动驾驶新一轮的技术节点了。

    当然,只要他不说出“全国都能开”(相信他知道这个梗),那特斯拉依旧还会是那个特斯拉,而不是标榜自己作为机器人公司,却因为短期的汽车销量下滑与传统品牌举例计较一二的“平庸车企”模样。

    写评论
    积分赞赏
    点赞
    评论区
    • 收藏
    • 举报
    • 加入黑名单
    回到顶部
    • 全部评论12 条
    • 只看作者
    • 最热
    • 最新
    • 最早

    毫无疑问,FSD 12.3+ 是目前最先进的端到端智驾AI,没有之一,甚至可以说是“实际效果最好的智驾AI”,就油管及X放出的视频和我在北美的同事感受,相比国内“全国都能开”的智驾来说,FSD 明显更加流畅、更加“拟人”的,不接受反驳。 端到端模型去掉了高成本的“感知”环节,用海量的“老司机小视频”训练 AI,这里的“老司机小视频”并非单纯双目视觉还包括同步录下的环视视频,这些视角是“人类老司机”看不到的,老司机也不是谁都可以当的,比如特斯拉早就开始通过保险和身份信息筛选老司机尽量避免前面说的的“吃到霉面包”。 可以把端到端看成一个啥都不懂的“傻子”,但是它看了海量的多角度视频片段,它不知道看到的是车还是人还是线,只是单纯的“模仿”视频中的行为。 要说端到端很聪明,它不聪明,它不能识别看到了什么(也不需要),它只会模仿,但实际效果却非常好,事实证明,模仿就够了。 有人说 FSD 12 的 SR 屏幕上一样有人、车、路等等,实际已经被证实这个 SR 屏幕就是为了照顾驾驶员保留的一部分“前世”功能,底层执行层面已经不需要这些信息。 端到端模型带来最大的挑战就是“物美价廉”,用了 1/3 甚至 1/5 的成本实现更好的效果,国内已经有几家企业大量投入这方面研究,FSD 在国内的训练也早已开始了,不要轻视这个劲敌,别说什么神话说什么没用,当它真的来的时候,它就是个大 Boss 。

    又不敢进国内走两圈

    不是不敢,是上面不让。最近好像松口了,今年就要来。

    端到端不需要那么多人员写规控,考验车厂算法技术探索,以及车厂的技术路线判断。

    “首先意味着,当真正的“全国都能开”进行全民化普及,车辆上的 LCC 功能将有可能彻底会被 NOA/NCA 等代替;”,按照文中的逻辑 “全国都能开”=另类的LCC,那不应该是NOA/NCA将被LCC取代吗?为什么是LCC被领航辅助取代

    我们的猜测是NOA直接向下兼容LCC了,具体可以看看这个:https://m.xchuxing.com/ins/634396

    凡是涉及特斯拉的东西,很容易给他搞成神话,比如2015年特斯拉的高速Noa,网上出现一堆后排睡觉,前面无人驾驶的视频,简直外星黑科技,当然现在我们都知道是什么水平了。去年又有人宣称特斯拉现在L4级的完全自动驾驶,现在这个所谓的端到端嘛,看来还不够神话。

    当特斯拉24年1-3月全球销量下滑,就开始鼓吹AI,FSD,END TO END。有个毛线用处!

    风会停,猪会摔

    客观的东西没有流量,珍重

    哈哈,这是挑好时机放出消息的吗

    特斯拉的算法工程师应该很厉害