第二代端到端:VLA(视觉-语言-动作)。 第二代端到端也准备来了,理想昨天财报也有提到,理想 L4 的预研是通过车端 VLA +云端世界模型做强化学习。 什么是 VLA,和第一代端到端有什么区别? VLA 大白话就是:没有了系统二,直接靠一个系统输出轨迹。但二代端到端的出现基本都是冲着 Thor 来的,也是明年一大技术主流。 一代端到端是靠系统一(快系统)+系统二 (慢系统)。系统一负责直觉直接做,系统二是一个 VLM 模型帮助系统更好理解环境信息,然后告诉系统一怎么做。但毕竟还是有“分工”和“交流”的过程,一定程度上带有延迟。 二代端到端 VLA (视觉-语言-动作)就是把系统一和系统二合并,变成一个大系统,系统一的直觉和系统二的环境理解一起输出,结构更加简洁,推理和执行效率更高。 进一步实现 AI 通用化。
  • 全部评论2 条
  • 只看作者
  • 最热
  • 最新
  • 最早

这不就是tesla现在用的one model么。

热破热搜基地这红色

写评论
积分赞赏
点赞
评论区
  • 收藏
  • 举报
回到顶部