理想用端到端+VLM_动态

电动知士大雨

2024-06-21

关注

理想用端到端+VLM模型的自动驾驶方案，很多博主都做了分享。很多同学，也基本理解了它的含义，我想再做个渐进式的科普+深挖，以便于感兴趣的同学，能了解大模型、AI在自动驾驶上的运用。如果你对VLM有一定了解，可以跳过第一条Q&A。 1、什么是VLM？ VLM （Visual Language Model）就是视觉语言模型，这个模型擅长解读图片（视频）里的信息，能用人类的语言和文字（自然语言）把看到的内容描述出来。可以把VLM简单理解为“看图说话”。在自动驾驶应用中，VLM可以用于场景理解，能识别和描述道路环境、交通标志、行人、车辆等等，通过大量训练，就能理解交通场景中的复杂交互事件。比如路口交通灯损坏，VLM通过警察蜀黍的手势，就能做出停止或者通行的判断。而对于传统自动驾驶方案，这个场景会是一种挑战。 2、VLM这么厉害，为什么没有在自动驾驶中广泛使用？大模型的特点，是拥有巨大的参数量，这会导致模型的推理时间有较高延迟，无法满足自动驾驶对实时性的要求，所以无论是LLM，还是VLM，更多应用在自动驾驶的仿真训练中。按照DriveVLM研发团队（清华&理想）的测算，DriveVLM模型部署在Orin平台上的推理速度为1.5s，要比传统自动驾驶模型的推理速度慢了5倍，自然无法满足自动驾驶的实时性要求，所以DriveVLM团队，提出了DriveVLM-Dual的概念，以解决实时性的问题。 3、DriveVLM-Dual 是如何做到低延时的？研发团队提出了一种方法，用传统的自动驾驶模块与VLM进行协作，组成了一套快 — 慢相结合的模式。传统的自动驾驶模块，没有时延问题，是一套快系统，主要负责车辆运动层面的规划，比如：加速、减速、直行，绕行避障。而DriveVLM具备场景理解能力，是一套慢系统，负责高层次的规划任务和决策。像前面提到的红绿灯出错场景，DriveVLM能更好的参与决策。两套系统是异步工作的，即可以独立工作，不需要同步执行任务。所以在运动规划层面，自动驾驶车辆会有更好的实时性。慢系统的DriveVLM也会对规划轨迹进行优化。 4、DriveVLM-Dual 的规划轨迹是如何工作的？ DriveVLM在低频率下会生成一个轨迹Wslow，如果是算法形态的Planner（规划模块）。Wslow可以作为初始值输入，帮助规划模块得出高频（快速）、细致的轨迹优化。如果是神经网络形态的Planner（规划模块），Wslow则是一个query（查询选项），与神经网络原本的输入特征f结合，就能生成新的轨迹Wfast（更优的轨迹决策）。这个细化过程，能够达成两种效果：（1）更高的轨迹质量、（2）更好的实时性。翻译一下，就是DriveVLM-Dual是可以结合传统自动驾驶的规划模块，选择性接收来自VLM分支的轨迹作为额外输入。因此在实时性上，这套系统整体上也取决于快速分支部分。研发团队用人类的“下意识动作”、以及“大脑的思考过程”对这套系统原理进行了解释，是一种非常聪明的做法。对应的就是：传统自动驾驶模块的快系统，可以实时性的完成加减速、直行、绕行操作，当遇到复杂场景事。慢系统VLM进入，如果按照实验的场景推理的1.5s速度，很像人类思考1-2秒来决定如何解决当下场景的问题。按照我的个人理解，DriveVLM-Dual 既可以与传统模块化自动驾驶配合，也可以与端到端自动驾驶配合。如果是端到端配合，相当于用另一个端到端模型VLM，在复杂场景下为第一个模型兜底。虽然VLM也是黑盒，但可以用自然语言的方式，把推理的结果直接显示出来，所以具备一定的可追述性。李想本人在重庆论坛上提到的，可以给端到端系统兜底，我猜测也是来自上述过程。当然，理想团队也提到了，会用世界模型构建仿真环境，对这套方案进行大量的验证测试，以保证其安全性，这一点也是头部各家都会采用的方式。而关于DriveVLM是如何进行推理的，它的优缺点是什么，等我腾出手来，再给大家写写。以上文字，完全基于我的个人理解，难免会存在纰漏和错误，也请高人随时指正。

新出行理想社区

最近使用
我的收藏
大家上传的表情
上传表情
最近使用
所有表情
- 微笑
- 大笑
- 狗头
- 让我看看
- 笑哭
- 机智
- 暗中观察
- 期待
- 疑问
- 调皮
- 害羞
- 尴尬
- 思考
- 得意
- 叹气
- 抠鼻
- 震惊
- 偷笑
- 无语
- 捂脸
- 加油
- 石化
- 鼓掌
- 再见
- 困
- 大哭
- 打哈欠
- 馋
- 吃瓜
- 惆怅
- 闭嘴
- 平静
- 没问题
- 冲
- 发怒
- 感动
- 不理解
- 酸了
- 菜狗
- 牛啤
- 割韭菜
- 过年了
- 不过如此
- 潜水
- OTA
- 打卡
- 沙发
- 加电
- 种草
- 没电
- +1
- 火
- 赞
- 踩
- 祈祷
- OK
- 送花花
- 666
- 比心
- 抱拳
- 大笑
- 担忧
- 郁闷
- 眯眼看
- 牛
- OTA中
- 微笑
- 大哭
- 迷惑
- 酷
- 大喊
- 加电
- 俏皮
- 敖丁生气
- 奸笑
- 呆滞
- 捂脸
- 没电了
- 加油
- 快冲
- 吃瓜
- 偷看
- 偷笑
- 鄙视