{{detailStore.author.is_follow?'已关注':'关注'}}
英伟达 GTC 2025|理想汽车 贾鹏 演讲分享, 《VLA: 迈向自动驾驶物理智能体的关键一步》, 理想汽车发布下一代自动驾驶架构 MindVLA, 融合了视觉、语言和行为智能的机器人大模型。 理想 MindVLA 让车辆拥有 3D空间理解、逻辑推理和行为生成能力,并能够感知、思考并适应环境。 来具体看理想 MindVLA 有六大技术关键点: - 首先是 3D 高斯表示,作为中间表征具备丰富的语义信息和多粒度、多尺度的 3D 几何表达能力,利用海量数据自监督训练提升下游任务性能。 - 然后是从零设计并训练的「 MoE 混合专家架构 LLM 基座模型」,采用稀疏注意力实现「模型稀疏化」,平衡参数规模与端侧实时推理效率,通过加入 3D 数据训练增强空间理解和推理能力,并引入未来帧预测生成和稠密深度预测等任务提升空间智能。 - 熟悉的「快慢思考结合的逻辑推理」能力,通过训练 LLM 学习人类思考过程实现快慢思考自主切换,结合小词表投机推理和并行解码技术提升实时推理速度,充分发挥 NVIDIA Drive AGX 性能。 - 引入「 Diffusion 轨迹优化」,将 Action Token 解码为优化驾驶轨迹,支持自车行为生成和他车轨迹预测的联合建模,采用常微分方程采样器在 2-3 步内完成高质量轨迹生成,并通过 RLHF 微调学习人类驾驶行为提升安全性。 - 采用「云端统一世界模型」,深度融合重建模型的三维场景还原与生成模型的新视角补全及未见视角预测能力,构建接近真实世界的仿真环境,3D GS 训练速度提升 7 倍以上,支持大规模闭环强化学习实现「从错误中学习」。 - 并通过创新的「预训练和后训练方法」赋予模型卓越的泛化能力和涌现特性,不仅适用于驾驶场景,还能在室内环境展现适应性。 —————————— 再从实际落地应用场景来看: MindVLA 将汽车从单纯交通工具转变为「听得懂、看得见、找得到」的专职司机,为用户带来全新体验。 「听得懂」,用户可在陌生园区通过语音指令“带我去找超市”,车辆在无导航信息下自主漫游找到目标,行驶中还能根据“开太快了”或“走左边这条路”等指令动态调整。 「看得见」,MindVLA 具备强大通识能力,能识别星巴克、肯德基等商店招牌,当用户在陌生地点找不到车时,可拍摄附近环境照片发送给车辆,车辆识别位置并自动找到用户。 「找得到」,用户在商场地库找不到车位时可说“去找个车位停好”,MindVLA 利用空间推理能力自主寻找并停车,遇到死胡同也能自主倒车调整,整个过程不依赖地图或导航,完全依靠自身感知和推理。 ———————— 理想汽车将在今年 7 月份落地这套技术方案,除了支持即将推出的搭载 Thor-U 芯片智驾焕新版车型落地并表示且还能支持兼容当前双 Orin X 平台车型。
34:53
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部