XCX-Test辅助驾驶 10期：VLA 能为我们带来什么？实测理想 VLA 司机大模型_评测

维圈圈

栏目

日榜 TOP{{detailStore.day_rank}}

月榜 TOP{{detailStore.week_rank}}

管理

XCX-Test辅助驾驶 10期：VLA 能为我们带来什么？实测理想 VLA 司机大模型

新出行原创 · 评测

我们此前深度和大家介绍了「VLA」与「世界模型」，如果说「世界模型」是在模拟世界中的一次次推演，我们无法真切的感受到，那么「VLA」就像是有人搭建起了沟通的桥梁，将车辆的实时动作与理解时刻都向驾驶员进行输出，驾驶员也可以反向控制车辆的动作。

那么 VLA 技术在实际的高阶辅助驾驶中的应用表现究竟如何？我们此次为大家带来了理想的 VLA 司机大模型，让我们一起来看下吧！

- 什么是 VLA

VLA 的技术架构可以拆分为三层，“感知”-“语言”-“执行”。

首先是看，通过摄像头或者激光雷达采集数据，例如红绿灯、指示牌、锥桶、行人手势等等，这个环节驾驶员基本是感知不到的。

其次是理解，把识别到的数据转化为机器可理解的语言（例如“前方30m有行人穿越马路”），同时还可解析人类驾驶员发出的语音指令（例如“开快点”、“前面靠边停车”），这是我们与 VLA 技术接触最多的环节。

最后去做，基于上面的语言信息生成行驶轨迹，并且让加减速、转向平滑度更加拟人。

一、理想 VLA ：如何建立沟通

理想 VLA 司机大模型，在“L-语言”上是以卡片+文字的形式向驾驶员实时展现，会展示出大模型的思考过程以及最终决策，可以明确告知驾驶员车辆的下一步动作是什么，以及这么做的原因。

所以说，传统智能辅助驾驶系统属于“不会听”也“不会讲”，它可以看清路况并且平稳驾驶，但无法向用户解释自己的行为-它可能会看不懂临时施工的指示牌，你问它“为什么刚刚急刹车”它也会一脸茫然。

在 VLA 的加持下，它就会变成一位“贴心暖男”，它能观察路况（视觉）、自己理解转化并可以听懂你的需求（语言）、最后转化为行车动作（执行）。

但我个人认为，新版本下的“思维窗口”显示过于复杂，并且文字太多字号太小，驾驶员基本无法读取信息，反倒不如上个版本的显示精准高效。

二、实际道路场景下的推理思考

- 起步

首先是常规的零速启动 NOA ，我们在设置好导航后可以通过点击屏幕或者语音开启 NOA ，车辆在判断环境后便变道起步。

视频上传成功

VLA 的推理也是线性的，首先是判断车辆所处的大环境，给到目前处于城市道路的结果。

其次是判断当前所处的车道以及周围的交通参与者，最后给到环境的整体总结，例如“道路标识清晰、交通状况良好等等”。

最后给到车辆的动作决策：打灯并向左发起一次变道。

- 窄路通行

在遇到极端的窄路场景时，车辆会遇到通道过窄而无法通过的情况，但这是我们依旧可以通过轻踩油门去帮助车辆脱困。虽然说车辆可以自行脱困，但在这种场景下方向盘的修正会有些多余，并且方向盘的转动幅度也会有些过大。

视频上传成功

但在这种路况中，车辆的推理思考就完全不符合实际了，给到的推理与决策和车辆的动作不相同。

- 右转占道

在这个场景中，右转车道基本被违停车辆占用，但我们自身并没有受到这些车辆的干扰，而是选择在第二车道完成右转动作。

视频上传成功

在这个场景的推理中，车辆可以发现前方的人行横道并且有减速的动作，并且我们依旧可以看到车辆依旧是想要向右变道的，但因为受到阻碍所以并未执行这个动作。

- 施工

这种场景对于目前的理想城市 NOA 来说已经没有压力了，通过的十分丝滑流畅，我们主要来看看它的思维推理。

视频上传成功

这次的思维推理就很符合当下车辆所面对的环境，其识别到了我们目前正处在施工路段，并且会重点注意通行的非机动车与行人。

- 复杂交通环境

在行人、违停车、非机动车同时存在的复杂路况条件下，我们主要还是看看其的推理过程。

视频上传成功

在这个场景的推理中，车辆很好的识别到了非机动车以及行人，并且给到了“行人活动频繁，但不影响通行的结果”。

- 施工路口

在这个场景中，右侧直行通道因为施工封闭，所以我们需要借用左转车道直行，车辆在这个场景中并没有被地面标识误导，给到了正确的行车决策。

视频上传成功

推理过程比较常规，在这种没有特殊情况的场景下，理想 VLA 就会偏向模板化的推理，没有特别重点的信息。

- 大车流连续变道

在这个场景中，车辆能迅速寻找到变道时机，并在保证安全的前提下快速并入目标车道，整体表现还是很流畅的。

视频上传成功

并且在这个场景中车辆也给到了不同的推理，我们可以看到车辆识别到了路牌信息，并且会提示用户车辆会自主规避碰撞风险。

- 特殊占道场景

这个场景中，我们主要是受到了行人的阻挡，我们可以看到由于行人一直在行走并且没有变道时机，所以车辆先是选择了跟随，在隔壁车道无车后来选择进行了变道超越。

视频上传成功

推理过程也很有意思，虽然说系统将拿着护栏的行人识别成了非机动车，但总体来说并没有太大的问题，并且系统最终也给到了“谨慎变道、择机变道”的结果。

三、地库场景对于标识的理解思考

在地库场景下，我们可以看到车辆更多层次的推理理解，首先在下面的场景中我们可以在图片中看到停车场闸机是被重点标注的，并且可以识别到旁边的障碍物以及车辆的停放方式。

在这个场景中，我们可以看到车辆可以识别停车场的标牌，主要是对于出口方向的识别，在面对有车辆经过时推理卡片也会显现出来，最终给到减速慢行的决策。

即便是在无目标的漫游模式中，车辆也能根据标牌以及箭头标识选择正确的行驶方向，避免出现逆行的情况。

如果在漫游模式下我们不进行任何操作，从车辆的思维链中我们也看到，车辆的最终目标就是根据标识牌的指引驶出地库，如果我们需要泊车，则可以点击“就近泊车”，车辆会选择最近的车位自动泊入。

四、语音控车所带来的双向交互

前面我们也说到，VLA 中的“L”不仅是车辆向驾驶员反馈信息，驾驶员也可以通过语言去指示车辆执行一些动作。

- 语音调速

我们可以唤醒语音助手，并且向其表达自身想要调节的车速，当然也可以用“开快点、开慢点”这种模糊语义，系统都可以很好的理解执行。

视频上传成功

- 语音变道

这个操作则是将以往的拨杆变道转化为语义理解+执行变道，在发起指令后只要周边环境安全车辆便可自主发起变道。

视频上传成功

- 语音停车/继续行驶

如果说前面两项都过于基础，我们通过拨杆和按键都能实现，那么通过语义理解实现“靠边停车+再次起步”则是 VLA 带来的专属炫技了。

在我们发起靠边停车的指令后，车辆会自主判断合适停车的位置，并且支持通过语音或者点击屏幕实现继续行驶。

视频上传成功

- 语音选择车道

和刚才语音变道不同，这个功能是最新 OTA 后的功能，如果我们需要在一个车道排队并且不想要车辆发起变道的话，便可以通过语音助手发起“在这排队”指令，在确保线路正确的前提下车辆就会持续在本车道行驶，当然我们也可以通过语音指令“解除排队”。

视频上传成功

- 语音选定区域泊车

在最新的 OTA 版本中，VLA 泊车则是迎来了语音选定区域泊车的功能，但前提是“去过一次的停车场”“陌生停车场”暂时不支持。

例如我们首次进入这个停车场，可以看到车辆已经可以识别停车场的区域（已经识别到车辆处于 C 区）。

那么我们下次来到这个停车场，便可发起指令“前往 A/B/C/D 区域”停车，车辆便会到达限定区域寻找车位。

如果说该停车场已经记忆了固定车位，在驶入停车场时，我们也可发出指令“随便找个车位停车”。

视频上传成功

作者结语 ... /

未来的 VLA 技术，将会与世界模型深度耦合，形成 “你中有我、我中有你” 的格局。例如我们本期实测的理想 VLA 其实已经集成了强化学习以及仿真训练模块，利用虚拟场景提升极端场景下的决策精度。

如何将推理过程高效的向用户表达，也是后续需要重点攻克的，目前的交互体验实际上还有很大的提升空间。语音控车方面，我们也通过近期的 OTA 感受到了系统和驾驶员之间的联系变得更加密切，希望未来我们可以操作更多辅助驾驶系统的行车细节。

新出行理想社区 XCX-Test辅助驾驶

进主页

维圈圈 Lv.4

新出行认证：新出行编辑

简介：留仙最速

获赞

关注

粉丝

原创