理想用端到端+VLM模型的自动驾驶方案,很多博主都做了分享。很多同学,也基本理解了它的含义,我想再做个渐进式的科普+深挖,以便于感兴趣的同学,能了解大模型、AI在自动驾驶上的运用。如果你对VLM有一定了解,可以跳过第一条Q&A。 1、什么是VLM? VLM (Visual Language Model) 就是视觉语言模型,这个模型擅长解读图片(视频)里的信息,能用人类的语言和文字(自然语言)把看到的内容描述出来。可以把VLM简单理解为“看图说话”。 在自动驾驶应用中,VLM可以用于场景理解,能识别和描述道路环境、交通标志、行人、车辆等等,通过大量训练,就能理解交通场景中的复杂交互事件。 比如路口交通灯损坏,VLM通过警察蜀黍的手势,就能做出停止或者通行的判断。而对于传统自动驾驶方案,这个场景会是一种挑战。 2、VLM这么厉害,为什么没有在自动驾驶中广泛使用? 大模型的特点,是拥有巨大的参数量,这会导致模型的推理时间有较高延迟,无法满足自动驾驶对实时性的要求,所以无论是LLM,还是VLM,更多应用在自动驾驶的仿真训练中。 按照DriveVLM研发团队(清华&理想)的测算,DriveVLM模型部署在Orin平台上的推理速度为1.5s,要比传统自动驾驶模型的推理速度慢了5倍,自然无法满足自动驾驶的实时性要求,所以DriveVLM团队,提出了DriveVLM-Dual的概念,以解决实时性的问题。 3、DriveVLM-Dual 是如何做到低延时的? 研发团队提出了一种方法,用传统的自动驾驶模块与VLM进行协作,组成了一套快 — 慢相结合的模式。传统的自动驾驶模块,没有时延问题,是一套快系统,主要负责车辆运动层面的规划,比如:加速、减速、直行,绕行避障。而DriveVLM具备场景理解能力,是一套慢系统,负责高层次的规划任务和决策。像前面提到的红绿灯出错场景,DriveVLM能更好的参与决策。 两套系统是异步工作的,即可以独立工作,不需要同步执行任务。所以在运动规划层面,自动驾驶车辆会有更好的实时性。慢系统的DriveVLM也会对规划轨迹进行优化。 4、DriveVLM-Dual 的规划轨迹是如何工作的? DriveVLM在低频率下会生成一个轨迹Wslow,如果是算法形态的Planner(规划模块)。Wslow可以作为初始值输入,帮助规划模块得出高频(快速)、细致的轨迹优化。 如果是神经网络形态的Planner(规划模块),Wslow则是一个query(查询选项),与神经网络原本的输入特征f结合,就能生成新的轨迹Wfast(更优的轨迹决策)。 这个细化过程,能够达成两种效果:(1)更高的轨迹质量、(2)更好的实时性。 翻译一下,就是DriveVLM-Dual是可以结合传统自动驾驶的规划模块,选择性接收来自VLM分支的轨迹作为额外输入。因此在实时性上,这套系统整体上也取决于快速分支部分。 研发团队用人类的“下意识动作”、以及“大脑的思考过程”对这套系统原理进行了解释,是一种非常聪明的做法。 对应的就是:传统自动驾驶模块的快系统,可以实时性的完成加减速、直行、绕行操作,当遇到复杂场景事。慢系统VLM进入,如果按照实验的场景推理的1.5s速度,很像人类思考1-2秒来决定如何解决当下场景的问题。 按照我的个人理解,DriveVLM-Dual 既可以与传统模块化自动驾驶配合,也可以与端到端自动驾驶配合。 如果是端到端配合,相当于用另一个端到端模型VLM,在复杂场景下为第一个模型兜底。虽然VLM也是黑盒,但可以用自然语言的方式,把推理的结果直接显示出来,所以具备一定的可追述性。李想本人在重庆论坛上提到的,可以给端到端系统兜底,我猜测也是来自上述过程。 当然,理想团队也提到了,会用世界模型构建仿真环境,对这套方案进行大量的验证测试,以保证其安全性,这一点也是头部各家都会采用的方式。 而关于DriveVLM是如何进行推理的,它的优缺点是什么,等我腾出手来,再给大家写写。 以上文字,完全基于我的个人理解,难免会存在纰漏和错误,也请高人随时指正。
  • 全部评论0 条
  • 只看作者
  • 最热
  • 最新
  • 最早

前排沙发空着~

还没有人评论哦,快抢沙发吧!
写评论
积分赞赏
点赞
评论区
  • 收藏
  • 举报
  • 加入黑名单
回到顶部