对话理想郎咸朋|VLA 司机大模型能力的起点是过去的顶点
新出行原创 · 访谈

随着理想 i8 的上市,理想汽车关于下一代辅助驾驶技术架构的细节也有了更多的披露。

除了发布会上展示的 VLA 司机大模型能力外,在发布会之前新出行也是去到了北京,和理想辅助驾驶团队来了一场深度沟通。

原本是想通过一篇文章来和大家聊一聊这一次沟通会的内容以及理想 VLA 司机大模型的表现,但由于保密时间和内容的变化,所以只能在去往北京参加理想 i8 上市发布会航班上先用这种形式和大家分享下。

受访人:

  • 理想汽车自动驾驶研发高级副总裁 郎咸朋博士
  • 理想汽车自动驾驶高级算法专家 詹锟
  • 理想汽车自动驾驶高级算法专家 湛逸飞

一、为什么要推 VLA 司机大模型?

在聊具体的对话内容前,我们先来简单的聊一聊理想汽车为什么要推 VLA 司机大模型?

过去几年理想汽车的辅助驾驶进步可以说是有目共睹,从最初的追赶者到现在的技术引领者,理想汽车对于辅助驾驶技术研发的推进,每一次都能给用户和行业带来一些期待和惊喜。

在 VLA 司机大模型版本之前,理想辅助驾驶技术架构是端到端 +VLM ,也就是双系统架构,既然是双系统架构,那在通讯速度和信息合并处理上就有优化的空间,有些 VLM 的识别并不能被执行。

而 VLA 是将空间智能、语言智能和行为智能统一在一个模型里,在一个模型里就解决了双系统的通讯和信息合并处理的问题。

VLA 的全链条执行在 15 毫秒,推理过程是 10hz 左右,之前的 VLM 是 3Hz 左右。

而且在端到端 +VLM 时代,这套系统是依托于人类驾驶数据训练模型,属于是模仿学习, VLA 则是用仿真数据结合仿真环境来训练模型,属于是强化学习。

端到端 +VLM 的模仿学习本身不具备深度的逻辑思维能力,这样就会出现违反常理的行为、开车不够聪明且安全感不足。

VLA 用生成数据结合仿真环境训练模型,仿真迭代的效率决定性能,解决了端到端 +VLM 现存的挑战。

理想的 VLA 司机大模型具有思维能力、沟通能力(用理想同学来和模型交流,操控车辆基本行车)、记忆能力(记住用户下发过的指令)和自主学习能力(在仿真环境里,无监督的自我迭代和提升)

二、能不能跳过端到端 +VLM 直接 VLA ?

既然 VLA 这么好,为什么理想汽车不直接做 VLA ,而是从端到端 +VLM 转到 VLA 呢?能不能跳过之前的技术架构直接到 VLA ?

针对这个问题,郎博明确表示在他看来是不可行的。

虽然 VLA 的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。

理想汽车之所以能够落地 VLA 模型,是因为我们有 12 亿数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。

如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力的支撑需要大量资金和技术能力,如果没有之前的积累是不能完成的。

三、未来 VLA 在 Orin-X 和 Thor-U 是否同步推送?是否有性能差距?

做为 Orin-X 老车主,我们对于 Orin-X 上 VLA 还是充满期待的,同时也担心后续的性能差异。

针对这个问题,郎博表示后续 Orin-X 和 Thor-U 的升级推送节奏是同步的。

他的 2022 款理想 L9 已经先推了 VLA ,从他的体验来看和 Thor-U 是没有差异的,帧率上也没有差异,如果非要说差异那就是 L9 的底盘和 i8 有些差异,舒适度体验上可能有所不同。

至于 Orin-X 和 Thor-U 的性能什么时候能拉开差异,我们现在肯定不会做这种差异化。但是随着下一步的迭代,如果我们在 INT4 的量化上有一些突破,那个时候可能会有一定差异,但是现在谈这个还为时尚早。

所以基于 Orin-X 的老 AD Max 车主不用担心了,准备等待 VLA 的推送吧。

四、大幅减少实车测试,更多测试交给仿真测试

随着技术架构的调整,这两年理想汽车在测试上也做出了调整。

  • 2023 年理想汽车实车测试 157 万公里,每公里成本 18.4 元;
  • 2024 年理想汽车实车测试 122 万公里,仿真测试 514 万公里,每公里成本 4.48 元;
  • 2025 年理想汽车实车测试 2 万公里仿真测试 4009 万公里,每公里成本 0.53 元。

可以看到大幅减少实车测试后,理想汽车的百公里测试成本在大幅降低,而且测试里程反而更高了,目前理想汽车单日仿真测试里程可以做到 30 万公里。

而且仿真测试的好处不仅仅是降本,使用实车测试是比较难 1:1 复现场景的,而这种测试稍微偏差一点点就会有不同的结果。

但使用世界模型做模型的仿真测试就不一样了,可以精准的复现场景,解决场景,提升模型能力。

五、理想汽车的算力储备

所以对于算力的要求也就更高,算力分为训练算力和推理算力。在 VLA 时代,推理算力更重要,如果没有推理卡,就不能生成仿真训练环境。

目前理想汽车总算力为 13EFLOPS ,其中 3EFLOPS 用于推理, 10EFLOPS 用于训练。

理想汽车拥有 5 万张训练和推理卡,其中推理卡算力等效 3 万个 L20 ,训练卡算力等效 2 万个 H20 。

六、理想汽车是否还会自研智驾芯片?

自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。

现在我们依然使用 Thor 芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体 VLA 迭代过程中依然有变化的可能性,所以我们依然在用 Thor 芯片。

如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。

七、用 MindGPT 作为基座模型进行训练,这比之前的模型好用吗?

詹锟:我们自研的基座模型对部署 VLA 有很大作用,我们 VLA 是 4B 模型,比以前更大了,但推理速度更快了。

核心原因是我们自研的基座架构,并不是业界任何一个开源模型都能达到这个效率。

之前在 AI Talk 上提到过我们是 MoE 的 0.4×8 的架构,目前没有任何一个架构是这样的,这是我们与基座团队共同研发,专门对嵌入式芯片做了定制的 MoE 混合专家架构,在这个架构上我们才能达到这样的效果。

VLA 的推理帧率在 10Hz 左右,每一帧都会经过语言模型,这其中会有比较快的思考,也有会有比较长的思考,我们做了很多的优化,把思考过程尽可能地能够在车端推理出来。

八、目前有一些友商的车载算力已经到 2000TOPS 了,这其中有一部分算力是提供给座舱的,请问未来理想汽车在车载算力上的规划是怎样的?有没有标准?

郎咸朋:实际上算力和量化精度是相关的,也就是如何使用芯片。如果使用精度比较高的表达方式,等效算力或有效算力会低一些,但如果使用更好的量化精度,算力就会高。

因为我们不清楚其它企业的量化精度,所以很难评判。我们在车载算力上有更加长期的规划,但现在不方便透露。

九、 在做 VLA 过程中,在感知方面还做了哪些工作,以及再往后走还有什么可以做的更好?

郎咸朋:还是要继续提升技术能力,我们现在这边正好有一个专门的技术能力提升的专项,就是要提升感知,在 VLA 中,我们现在对感知有一个比较大的升级,能看得更远、更精细。

比较典型的两个例子是我们动态物体从原来 150 扩到了 200 米纯视觉的范围, OCC 通用物体检测从原来的 80 扩到了 125 ,这都是目前在 VLA 上做的更多技术能力提升,包括数据、包括推理性能的提升才能做到,目前我们确实会在基础能力上做更多提升。

十、在研发 VLA 组织架构进行了怎样的调整?

郎咸朋:组织层面,我们组织并不是大家想象的是一个职能性的组织,还是 IPD 组织,可以理解成是一个大的项目的形式,虽然大家都在现在部门里可能有一些部门的分工、分配,但不管去年做端到端,还是前年做无图,还是今年做 VLA ,都是成立了内部项目组来做。

对我们来说,组织挑战倒还好,因为大家这么多年也比较习惯于这种项目制的研发了,而且这反而成为我们一种优势,端到端去年是 180 个人,今年 VLA 稍微多一点, 200 多个人,其实并不是弄几千人去做,我觉得不需要,我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。

总结:

以上就是这一次和郎博、詹锟和湛逸飞对话的部分内容。

从 Workshop 和对话中我们能清楚的感受到理想汽车智能辅助驾驶团队对于 VLA 上车所能带来的东西还是比较兴奋的。

甚至 PPT 上都打出来「上一代技术能力的上限是下一代技术能力的起点」的标语。

当然,随着技术架构的切换这样的标语我是能理解的,毕竟过去几年时间里,理想汽车辅助驾驶在技术架构的搭建上确实比较领先。

但回到现实,做为理想 L 系列的车主,我对过去半年理想辅助驾驶的进步是要提出批评的,过去半年从我的实际用车来看,整体进步缓慢。

但考虑到技术架构的切换时间点等原因,我也是能理解和包容的,但随着 VLA 上车后,这种包容可就不在了,所以接下来就看理想汽车在 VLA 技术架构上的发挥了。

写评论
积分赞赏
点赞
评论区
  • 收藏
  • 举报
回到顶部
  • 全部评论5 条
  • 只看作者
  • 最热
  • 最新
  • 最早

欢迎扫码即可进群~

很深度

👍

有点意思