{{detailStore.author.is_follow?'已关注':'关注'}}
很多社交媒体上的所谓宣传,让很多人蒙蔽了,我今天就来说个例子,看完你就知道,为什么小鹏要专门重新训练他们说的所谓 VLA 2.0。 但其实本质上 VLA 2.0,就是世界模型,我觉得还是少点人被骗比较好。 3岁小朋友能做的事情, GPT-5.2 和 Claude-4.5 做不到? 来看最新论文 BabyVision: 论文搞了4种测试, 基本就是拼图,连连看, 堆积木, 找不同测试. 结果是: 当今最强的多模态大模型在人类幼儿都能轻松解决的基础视觉任务上惨遭翻车! 研究团队设计了 388 道题目, 这些诗句题目难度"覆盖"了幼儿园到小学级别的难度. 结果是, 最强选手 Gemini3-Pro-Preview 只拿了 49.7 分, 而成年人平均 94.1 分, 6 岁儿童都能拿 65 分! 论文的核心洞察是: 人类是先有视觉后有语言, 婴儿几个月大就能辨别形状、追踪物体. 但 MLLMs 完全相反——它们在需要大量知识的高级任务上很强, 却在最基础的视觉感知上近乎"失明". 这说明它们并非真正"看见"了图像, 而是在用语言知识"猜测"答案! 研究团队还尝试用 GRPO 强化学习来补救, 准确率从 13.1% 提升到了 17.9%, 但距离人类水平仍然遥不可及. 这表明视觉能力的根本缺陷很难通过后训练弥补, 可能需要架构层面的创新. 另外我上周也给大家做了文生图模型的测试, 这类模型其实分辨率也有限, 最大可以将画面划分为25个区域控制, 再多了就开始出问题了. 所以下次看到某个大模型吹嘘自己在各种榜单上遥遥领先时, 不妨先让它做几道幼儿园的找不同试试哈哈哈 所以,辅助驾驶面对的空间场景,而非信息语言,所以当不强调 language 的时候,其实在构建的,就是对空间的理解,其核心方向,就是世界模型。 但小鹏现在的问题就是,当然我还求证不了。图灵芯片是不是就是一开始就设计用于跑 VLA 模型,而非世界模型。如果不是,面对索尔、神鸡以及昇腾芯片,就有了天然的短板。
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部