{{detailStore.author.is_follow?'已关注':'关注'}}
今天小米先解密了小米智驾沟通会的内容,抢先和大家聊聊! 昨天其实已经发了一篇前序(链接),今天和大家聊聊第二篇。 1、其实从现在看,小米组织上变化已经能看出很多新的战略! 为什么小米突然在发布会宣布了新的阵容? 小米过去的“保密”程度比较高,但是这次小米第一次全系公开自己的领导阵容,包括公开所有人和媒体面对面,可能不仅是小米汽车,在小米上也是第一次。 从过去几年看,小米的AI战略和小米汽车若分若离,小米从高速有图到城区无图,到端到端,除了云端算力共享,似乎也没有得到小米AI的赋能,但到现在的世界模型、XLA 基座大模型,基本走到了统一。 从这几年的企业组织看,一家车企的智能化大概经历几个阶段,第一个阶段可能是工程化代表的工程师,比如以吴新宙等为代表。第二阶段开始比如 Momenta、华为、地平线等公司的发力,开始围绕的是有先进算法经验的工程师。 第三阶段我们看到的人才是 AI 人才。这阶段有周光、贾鹏、任少卿等,它们可能不是“出生”在汽车行业,但把 AI 这一体系丈量的更远。 小米也正是在第二和第三这个阶段进入了汽车行业,而小米也选择了叶航军博士作为小米整个智驾业务的负责人,航军博士当时是整个小米人工智能的总经理,包括也是小米技术委员会的主席。所以从集团层面讲,最开始这个 AI 战略比我们想象中更大。 在小米准备发布SU7前,我们还到小米总部拜访了叶博士,为人非常谦和,也聊了很多关于小米在智能化的看法。 小米选择的是基于 AI 人才做多线拓展的战略,而不是单一只考虑智驾。整个小米集团的智驾负责人由叶航军带队,底下分布了三天独立支线。一条负责 L3 ,由王乃岩负责。一条为端到端+世界模型路线,也就是目前 HAD 增强版负责人,由陈光负责。另一条线就是 VLA 技术负责人,由陈龙负责。 这三位代表都是在各自行业非常顶尖的人才,每一个核心技术都有了一个新的负责人,每个负责人为他的业务负责,也会更聚焦。而且每个负责人都基本是这个业务非常牛的核心人才。 比如陈龙之前是Wayve 的主任科学家,部署了全球首个上车的视觉语言自动驾驶系统 Lingo,是雷军直接参与了面试,后面陈龙回国在今年 4 月加入小米。 所以很多同学把小米的 XLA 简单堪称辅助驾驶的 VLA ,其实不对。XLA 是小米整个大语言模型的集团战略。 陈龙不是仅负责智驾的落地,可能是机器人、可能是智能家居、也包括智驾,所以从他的视野和技术底座的建立看,是要比我们理解的智驾 VLA 大的多的多。 而目前负责 HAD 增强版的陈光,也在量产上有很多经验,之前在百度阿波罗,后面也在一汽南京研究院做 CTO。乃岩博士大家应该很熟悉了,之前是前图森未来 CTO 。 这样每个小米智能化的负责人都有每个人的精细化的分工,不是又做这个也做这个,每个人都在各自领域做核心的合作,和目前主流的组织关系有很大的不同。当然我觉得从一定角度讲,也是留存人才的一种方式。也不需要考虑内部组织的竞斗,每个人都有自己的一片天地。 2、小米要做世界模型,也要做VLA。 陈龙明确,VLA 中的 L,也就是语言大模型会是通向未来的终局模型。 陈龙在 MiMo - Embodied 模型的突破,关键是过去具身智能多聚焦室内物体操作,和自动驾驶侧重户外场景,是各自独立的。但 MiMo - Embodied 通过统一框架实现统一建模,这也意味着两者在空间理解、因果推理等能力是可以跨域迁移的。比如机器人在推理上也能帮车辆更好地识别路口复杂元素。车上的动态博弈和逻辑,也能反哺机器人的规划动作上。 所以和目前主流的 VLA 技术不同,小米目前做的 VLA 中的语言大模型的数据基本是从头训练,而不是按照以往的开源的互联网数据。 这里面的数据共用了智驾和机器人数据,来提前做预训练,这两个数据可以同时做车内和车外两个代表性场景做推理,这更像陈龙在 MiMo - Embodied 模型中的一次“落地”。而自研的好处是能确保数据来源的纯净性,而且出来的语言和行为逻辑可信,也和依赖开源模型的厂商进一步拉开差距。 所以目前小米此 VLA 非彼 VLA。 VLA 的性体验会非常依赖大规模高质量数据训练,同时这一差异也会觉得各家的 VLA 能走多远。当然因为小米自建了数据体系,要覆盖大范围的交通场景需要更大的真实道路和仿真数据,还要适配 VLA 的仿真环境、也要设计多模态融合算法,这意味着小米的 VLA 还需要更长期的技术投入和迭代,不是短期上车的一套针对智驾的系统。 其次影响 VLA 的原因除了依赖数据,陈龙这次还提到 VLA 需要完成从视觉到语言、语言到动作的转换,这个动作对目前的算力消耗非常大。 包括目前一些已经上车的 VLA 存在的时延性问题,很多原因也是因为目前算力所存在的瓶颈问题。 3、那小米目前端到端+世界模型能做什么? 上次和大家聊到的小米这次的升级,主要是体系化的升级,主要是推理能力和决策优化这两点。但这两点的提升不代表着小米的 HAD 是完美的,它也会带来一些体验的争议。 比如激进或者保守,大家体验的喜欢度不一样。这一点大家可以看我后续的视频或者是升级后上车体验。 在世界模型中做对题才有糖吃,这就是强化学习的训练方式。 所以相比强化学习,世界模型会是各家车企存在差异化的核心,因为世界模型的质量直接决定学习的质量,从而影响模型的质量。 即使现在越来越多的车企都转入世界模型,但是差异化也是很大的,而且越走到后面会更大。这已经形成了各家的一种无形的资产。 这次小米陈光明确和我们聊到,小米的世界模型的质量会更符合物理规律和几何规律,也就是会更真实。当然小米的世界模型在“人车家全生态”中,会有一些其他家没有的诉求。比如世界模型的场景生成能力、环境预判能力延伸至车机交互或者是智能家居。这也是体现跨生态的一个重要闭环。 3、世界模型和 VLA 是协同,不是一种互斥。 所以我觉得还是和上次说的结论一致,无论是世界模型或者是 VLA,还是谈及强化学习的方式,未来会越来越走到一个终极的复合形态,也就是其实大家相互协同,互为促进。 而不是谁选择世界模型,谁选择了 VLA。 当然决定它的规模,还是取决于这家企业的生态有多大。 它的成本以及数据、算力等需求是史无前例的,每个车企它的定位可能不同,可能不是所有企业都有这么多场景和生态可以消化。但对于小米为代表的企业,也就是出行+场景全生态的 AI 企业,何不尝是一次新的拐点。
最后编辑于 · 2025-11-24
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部