{{detailStore.author.is_follow?'已关注':'关注'}}
Momenta 旭东判断 VLA 和世界模型的关系: 语言模型其实什么都能表达,能说不同语言也能编程,但是开好车的事情上不需要这个人会写代码,也不需要会讲英文。 它需要对各种各样有关驾驶的安全场景有很好的判断,也就是对物理世界的规律有很好的理解,并且能够做出及时反应。 第一个要见过,要有预判还能预测出来,有很好的肌肉记忆,这个刚好是世界模型具备的,而强化学习又能收集大量的常有的场景,来反复锻炼它的肌肉记忆。让它知道在危险情况下肌肉记忆如何锻炼更安全、更安心。 现在VLA 的训练范式需要先训练大语言模型,而大语言模型的参数量在100B左右,模型完了以后还需要让行动和语言、视觉去对齐。所以整个VLA的训练优先级不是侧重于驾驶的任务,而是侧重于位移。 也就是说大量的参数没有用在开车之间事情。好钢没有用在刀刃上。这也是我们最初判断VLA在自动驾驶上最多只是锦上添花。
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部