{{detailStore.author.is_follow?'已关注':'关注'}}
新出行深度 | 「VLA」与「世界模型」的双线并进
新出行原创 · 精品文章

智能辅助驾驶正在完成“被动感知”到“主动预判”的跨越

2025 年我们见证了智能辅助驾驶行业的快速发展,这场关乎未来出行方式的技术革命,正在围绕着两条核心主线深度并进。

这也是为什么我要说,今年的智能辅助驾驶关键词是 -「双线并进」。

一条是产业模式,我们正在经历“自研”与“供应商”之间的边界重构,整个智能辅助驾驶行业正在从“非自研即合作”的二元对立层面,转变为“核心自研+生态协同”。自研车企与头部供应商共同发展,推动智能辅助驾驶快速化、规模化落地。

另一条则是技术路径,VLA 大模型与世界模型的深度发展,以训练闭环与仿真训练克服传统长尾场景难题,实现从“感知识别”到“认知预判”的提升。

「自创秘方菜」与「中央预制菜」

智能辅助驾驶产业,本质上是 "核心能力掌控权" 与 "生态协同效率" 的平衡艺术。2025 年的市场早已告别 "非黑即白" 的二元对立,形成了自研主导、供应商赋能、以及协同共创三大范式并存的格局。

一边是“核心技术必须掌控手中”、一边是“成熟方案一键打包上车”。就像是餐馆里的 「自创秘方菜」与「中央厨房预制菜」 ,各有优势但也能做到相辅相成。

- 自研派

自研派的理念在于,大到食材小到佐料都要自身去精心把控,从芯片到算法、从感知到数据闭环都要亲力亲为。并且 2025 年的自研派已经跳出了堆硬件的怪圈,主打“算力+算法”两条腿走路。

这方面零头者主要为小鹏以及蔚来,这两家主要实现了硬件与算法的双重自研,小鹏的图灵 AI 芯片使得车端算力飙升到 2000+TOPS,并且也是首先将 VLA 部署到车端的企业之一。

蔚来也凭借着神玑 NX9031 与 NWM 世界模型,实现高速、城区、停车场统一框架,并且李斌也说过,神玑芯片规模化量产,成本是要比此前的 4 颗 Orin-X 芯片更加低的。

小米虽然比头部更晚,但也在自研算法的道路上坚持,HAD 强化版也为我们带来了“强化学习+世界模型”。目前小米的智驾团队也有着 1800 人左右的规模,智驾领域投入接近 60 亿元。

全栈自研有好处但代价同样高昂,数十亿甚至百亿级的研发投入、数千人的技术团队配置、较长的迭代周期,构成了较高的壁垒。

对于多数企业而言,自研之路不仅需要充足的资金储备,更需要精准的技术路线判断,一旦错失窗口期则有可能全面落后。例如依赖于长城的毫末没有抓住转型“无图+端到端”的窗口,且方案缺乏成本控制能力,导致对外订单遇冷。

所以这也是为什么现在大部分传统厂商放弃自研选择供应商方案的原因之一,自研成本太高且风险太大。

- 供应商

如果说自研派是讲究「自创秘方」,那么供应商就像是包罗万象的「中央预制厨房」,你要什么我都可以给你,也能给你做点特色风味。

2025 年的头部供应商,已经占据了接近 90% 的市场份额,成为车企的“智驾外挂”。

华为作为供应商中的“六边形战士”,乾崑 ADS4.0 搭载全新 WEWA 架构,实现全模态感知,云端 “世界引擎” 让复杂场景泛化能力翻倍。 

Momenta 则起步较早,为企业提供智能驾驶算法,2020 年便于丰田合作拿下江苏首个无人驾驶出租运营牌照,2022 年实现首个搭载车型量产,目前装车规模已经突破 50 万辆,并且也在朝着硬件供应商转变,在部署和研发属于自己的智驾芯片。

地平线则是从硬件供应商起家,从征程3、征程5 再到现在的征程6 系列,并且 HSD 智能辅助驾驶系统也已量产装车,属于全栈式智驾解决方案供应商。

供应商模式的核心优势在于规模效应与技术迭代效率,通过服务多家车企,供应商能够分摊研发成本,积累更丰富的场景数据。 劣势在于一旦供应链出现波动,便可能陷入发展停滞。 所以目前车企大部分都选择保留核心算法、数据闭环等关键能力,供应商更多扮演赋能的角色。

- 混搭才是最优解

来到 2025 年,我们前面也说到已经不是 "非黑即白" 的二元对立,合同发展才是最优解。

如何搭配自研和供应商,也成为现在车企的主流方向之一,既可以保留菜品“核心秘方”,也能利用“供应商”预制菜实现产品快速落地。

例如比亚迪在 2025 宣布全面智驾后,我们可以看到其 天神之眼-C 系统大部分采用的是自研方案,而更高阶的 A&B 系统则是 Momenta 的方案,方程豹部分车型还用上了华为 ADS ,可以说即保证了高端体验也能保证性价比。

一汽也选择了入股卓驭,并且追加数十亿的战略投资,用其成熟的智驾方案将自身车型的智驾能力“快速武装”起来。

这种相互依存的关系,推动着智能辅助驾驶产业从 "博弈" 走向 "共赢",为智能驾驶技术的大规模普及奠定了基础。

从「执行工具」到「认知伙伴」

2025 年,智能辅助驾驶已从 "感知 - 决策 - 控制" 的传统架构,迈入 "视觉大模型 + 世界认知" 的新范式。VLA 解决了 "如何高效处理海量视觉数据" 的问题,世界模型则解决 "如何理解物理规律并预判未来" ,二者可以相互独立也可协同融合。

- VLA:给智驾装个“会沟通的大脑”

VLA 的技术架构可以拆分为三层,“感知”-“语言”-“执行”。

首先是看,通过摄像头或者激光雷达采集数据,例如红绿灯、指示牌、锥桶、行人手势等等

其次是理解,把识别到的数据转化为机器可理解的语言(例如“前方30m有行人穿越马路”),同时还可解析人类驾驶员发出的语音指令(例如“开快点”、“前面靠边停车”)

最后去做,基于上面的语言信息生成行驶轨迹,并且让加减速、转向平滑度更加拟人

并且这只是 VLA 的早期形态,目前小鹏已经可以实现去除“语言转译”这个层面,直接实现从视觉到执行的二段式流程,系统反应会更加迅速。

通俗来讲传统智能辅助驾驶系统属于“不会听”也“不会讲”,它可以看清路况并且平稳驾驶,但无法向用户解释自己的行为-它可能会看不懂临时施工的指示牌,你问它“为什么刚刚急刹车”它也会一脸茫然。

在 VLA 的加持下,它就会变成一位“贴心暖男”,它能观察路况(视觉)、自己理解转化并可以听懂你的需求(语言)、最后转化为行车动作(执行)。例如在识别到占道施工时,它会去理解绕行的方向;你对它说“前面靠边停车”,它也会及时响应。

- 世界模型:推演+预判

如果说 VLA 解决了 “理解、沟通、执行”,世界模型则解决了系统 “未来的预判与规划”。它的核心是通过生成式 AI 框架模拟物理世界的规律和因果关系,例如人行道滚出的皮球≈即将冲出的儿童。让智驾系统在 “虚拟场景里” 预演未来场景,再做出最优决策,相当于给车装了个 “预判外挂”。

如何进行推演+预判呢?首先系统将传感器采集的信息进行 “同声传译”,把现实世界的信息转化为虚拟世界的 “剧本”。

然后我们把剧本拿到 “虚拟剧场”。它的游戏规则和现实物理规律和交通规则相同,对未来一段时间的场景进行推演,比如预测 “前车打转向灯后是否真的会变道”、“路口行人是否会突然横穿”,甚至能模拟暴雨、施工等极端场景下的路况变化。

最后系统会从众多推演结果中选择最优方案,生成驾驶轨迹。比如蔚来 NWM 世界模型能在 100 毫秒内推演 216 种可能轨迹,预测视野达 120 秒。

与传统预测模型不同,世界模型不依赖单一场景的数据训练,而是通过 “虚拟经验 + 真实数据” 的结合,大幅降低对真实长尾场景数据的依赖,训练成本可降低 90%。

通俗来讲 传统智能辅助驾驶系统的决策逻辑是 “见招拆招”:前车刹车,就跟着刹车;看到行人横穿马路到自身面前,才紧急避让,只能对眼前的突发状况做出反应。

而世界模型的加持,则让系统学会 “未雨绸缪”:它就像司机的 “脑补”,遇到路口时,会提前预演 “行人可能横穿”“非机动车可能抢道” 等多种剧情,提前调整车速、预留安全距离;看到前车打转向灯但长时间没有动作,会预判 “大概率不会真变道”,避免不必要的急刹。 

「VLA」与「世界模型」最终将相辅相成

当下智能辅助驾驶的核心诉求是 “安全” 与 “效率” 的平衡,VLA 技术与世界模型只是从不同维度回应这一需求。

- VLA :走捷径并可快速落地

VLA 技术门槛和世界模型比较相对较低、迭代速度快。

例如理想自研的 Mind VLA 模型基于 Thor-U/Orin-X 平台构建, 理想官方表示 VLA 的优势在于能快速学习数据背后的逻辑,未来将把事故发生里程提升至人类驾驶的 10 倍,即 600 万公里 / 次事故。 

小鹏则采用 “重云端+轻车端” 的分层 VLA 架构,云端搭建 “VLA+OL” 基模,通过模型蒸馏技术将核心能力迁移至车端轻量化的 XVLA 模型。

并且小鹏的 VLA 2.0 还将去掉“视觉感知-语言-执行”中的语言层,转化为 “视觉+Token化语言-执行”,降低信息传递的损耗,提高系统的反应速度。

总的来说,根据公开数据表示, VLA 的数据获取成本仅为世界模型的三分之一,可利用文本数据预训练,降低对专业驾驶数据的依赖,并且开发周期相对较短。

- 世界模型:深耕安全与预判能力 

华为车BU CEO 靳玉志表示,VLA 看似 “取巧”,但并非自动驾驶终极方案,WA(世界模型)才是实现真正无人驾驶的正确路径。

华为乾崑 ADS 4.0 系统采用 WEWA 架构(云端世界引擎 + 车端世界行为模型),据官方数据表示在高速突发并线场景中,决策响应速度为 100 毫秒,快于 VLA 的 200 毫秒;雨雾天气下,对 150 米外静止车辆的识别准确率比 VLA 高 37%。 

蔚来的 NWM 世界模型走 “多模态融合 + 实时预演” 路线,强化车端自主决策能力,无需依赖云端实时支持。可同时接入视觉、点云、路牌文本等多源数据,100 毫秒内生成 216 种行驶轨迹,重点关注行人、非机动车等动态目标,预测时长提升至 3-5 秒,雨夜场景预演精度较上一代提升 30%。

- 对立背后是逐渐融合

上文大家觉得两条技术路线是对立的局面,但现如今 VLA 与世界模型的边界逐渐模糊,双方都在向对方领域渗透,形成 “你中有我、我中有你” 的格局。

例如理想的 Mind VLA 已集成强化学习与仿真训练模块,利用虚拟场景提升极端场景下的决策精度;小鹏的 XVLA 通过接入简化版物理引擎,改善冰雪路面等场景的动作生成,减少急加减速带来的安全隐患。

而世界模型阵营则在强化语义理解与交互能力。蔚来的 NWM 世界模型已经支持自然语言交互;华为乾崑 ADS 4 加入了决策解释功能,能以自然语言说明 “为何选择刹车或者变道”等等,解决世界模型相较于 VLA “不爱说话” 的问题。

总的来说,VLA 与世界模型的出现就是为了解决以往单一技术路线难以覆盖的场景,那么现在这两者的互相融合也是为了克服单一技术路线的瓶颈,VLA 无法替代物理建模的精准性,世界模型的安全冗余和预判能力也不能解决人车交互的体验问题,二者最终只有相互借鉴。

结语

VLA 与世界模型的 “路线之争”,是智能驾驶行业发展的必然阶段,反映了车企对技术路径的不同探索。这场博弈没有绝对的赢家,只有通过不断学习与融合,去取得市场与用户的认可。

虽说目前已经有很多主机厂与供应商都用上了 VLA 以及世界模型,但它们之间还是有着很大一部分区别的。

例如 VLA 技术看似学习成本更低,但其实际体验却依旧依赖大量的训练数据训练以及多模态融合算法,也就是“喂得饱,才能做得好”。

世界模型则更加考验谁搭建的“模拟器”更加逼真,例如同样两套世界模型,你在“开放的开阔地”,而我在“封闭的地下室”,那么其最终表现出的实际能力便是不同的,从而影响模型的质量。

世界模型会变成各家的“固定资产”,不再像传统的智驾,大家都拿着同一套解题思路,解题公式都是相同且可复制的。而世界模型的不可复制性就将成为各家差异化的转折点。

随着技术的不断进化,VLA 与世界模型的边界将进一步模糊,智能辅助驾驶将从 “技术路线竞争” 转向 “场景化解决方案竞争”。未来,我们或许不再谈论 “某款车采用 VLA 或世界模型”,而是 “某款车能完美应对所有出行场景”。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{feature?'撤销':'进'}}精选库
  • {{digest?'撤销精华':'设为精华'}}
回到顶部