{{detailStore.author.is_follow?'已关注':'关注'}}
CVPR2026上,刘先明分享了小鹏的进展,以及对基座模型的思考: 小鹏的技术路径并非在 VLA 和世界模型中二选一,而是将两者结合,构成物理世界基座模型。两者训练目标不同,互为补充。 第二代 VLA 负责“如何行动”。通过人类驾驶行为的输入(视频/指令)与输出(动作)进行建模。这种方式的挑战是人类行为数据在时间上是稀疏的,只能提供结果监督。 世界模型负责“理解行动后的世界变化”。采用类似大语言模型预测“下一个 Token”的逻辑,在海量视频上密集预测下一帧画面或下一个物理状态。提供高密度的训练信号。 小鹏通过四篇学术论文,来展示世界模型的具体作用: 可控生成(X-World): 给定一个驾驶动作,模型能生成符合物理规律的未来视频。用于闭环仿真和造数据。 长时序推演(X-Foresight): 将视觉与动作结合,预测未来场景演化,直接给 VLA 的控车决策提供支持。 加速推理(X-Cache): 提出跨段块级缓存技术,极大减少重复计算,将推理速度最高提升 2.7倍。 主动思考(X-mind 待发): 解决端到端模型的“黑盒”痛点,输出决策的中间推理过程,提升可解释性。 在训练端,小鹏的单版模型训练量超 4万亿 Token,集群 GPU 硬件利用率达 90%。 VLA2.0+图灵芯片,相较于开源模型+通用芯片,计算利用率从 22.8% 提升至 82.5%,推理时延从 800毫秒 压缩至极限的 80毫秒。 小鹏的最终目标,是 L4 级自动驾驶及具身智能。
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部