{{detailStore.author.is_follow?'已关注':'关注'}}
原创文章
管理
AI 大模型驱动全面进化 一文看懂极越 AI DAY
新出行原创 · 文章

3 月 25 日,极越在百度科技园举办了首届极越 AI DAY 。

作为背靠百度思考的纯电车型品牌,极越在智能化层面显然拥有着属于自己的独特想法,而在这场 AI DAY 活动中,极越就智驾、地图、语音这属于极越的三大核心领域进行了全面革新。

本篇文章,就由姜硬与大家一起回顾,本次极越 AI DAY,极越为大家带来智能化领域新的思考吧。

智能驾驶:用 AI 思维重构自动驾驶

“具备「体验跨沟」潜力的高阶智驾,需要具备四个必要条件:城区领航辅助驾驶、全国都能开、系统体验安心、数据飞轮快速演进。

百度智驾首席研发架构师王亮,向我们循序渐进地介绍,极越关于未来智能驾驶的核心因素。

百度智驾首席研发架构师 王亮

在过去的一年中,极越在春节期间创造了 93% 的用户整体智驾渗透率、500,000 公里的领航辅助道路覆盖、324 次 AI 模型迭代上车……折算为每一天的视角,极越几乎只需要一天多一些的时间,便能迭代一次 AI 模型,推进超过 1000 公里的领航辅助道路覆盖。

这是极越的微小成绩,但在成绩背后,依托视觉感知的极越 01 ,本身在智能驾驶的路线上便和其他对手有着不一样的思考:

-用视觉解决一切的愿景网络

激光雷达生成的是单调的点云,而视觉看到的是五彩斑斓的真实世界,如何设计算法提取视觉感知到的海量信息,便成为了王亮团队需要做的事情。

信号灯、机动车、行人……如何让模型掌握通用的泛化学习能力?王亮介绍了属于极越的第一步 AI 思考——“Vision takes all”,VTA Net 。在这套大模型网络中,王亮向我们介绍了其基座,也就是预训练感知基础大模型。

王亮深入浅出地为我们讲解了这套基础模型:“相当于一个博士生,ta 刚入学的前两年里,并不会直接接触团队的核心课题,而是从基础课程学起,这样才能在日后进入核心课题时有着更深入的理解。”这套基础模型在 VTA 网络中也起到相似的作用,即打好基础,帮助 VTA 更好的理解真实世界。

因此基础模型的第一阶段,是利用现阶段累计的自动驾驶数据,进行无标注的自监督学习训练;第二阶段则是进行通用的视觉学习任务——此时便不止于车辆录取的数据信息,而是通过互联网上海量的图文信息,进行通用的视觉训练。

在打好基础后,基础模型进入下一步的“课程开题报告”阶段——目标检测、实时建图、时序跟踪、场景理解。即度过了通用学习阶段后,基础模型开始针对特定任务,进行垂直领域的深耕与训练。

“在这四大核心能力都成立的基础上,便能更加接近端到端的感觉,可以对场景里发生的事情进行理解、相应的推理和动作。”王亮解释道。

-更强大的视觉 OCC 占用网络

虽然 OCC 占用网络已经在 1.3 版本里上车,但在 1.3 跨步到 1.4 版本中,极越的 OCC 占用网络模型新增了超过 1 亿帧的数据;同时更新了 1.4 的早鸟用户中,有 72% 认为避障能力有所提升。

而据王亮介绍,再之后基于视觉 OCC 的占用网络还会进行一轮新的升级,覆盖「行」与「泊」全场景:

在高速/城区/低速泊车场景里,视觉 OCC 能够调取不同的性能数据,在视距、分辨率和刷新率方面根据不同的场景进行定制化的性能调用。

而在基础模型与视觉 OCC 的双重进化后,视觉能力还能得到极大的开发——

  • 视觉被遮挡从而感应不到的物体,可以通过跟踪能力“脑补”物体轨迹;
  • 支持更多的道路元素识别、更强的测距能力和道路拓扑能力,基于视觉信息进行实时建图;
  • 强化的“阅读理解”能力,支持做出更敏捷的的决策路径,更加“端到端”的推理与执行。

总体而言,视觉感知基础大模型实现了系统决策与规划能力的阶跃,而在这类大模型的背后,则是极越背靠百度三大计算中心提供的超大规模 AI 运算能力——超 2.2EFLOPS 的 GPU 算力、30PB 数据缓存、98% 有效训练时长、95%带宽有效性。

而在最后,王亮还向我们分享了两个基于不同模型创造出高效率识别的场景片段:基于文心大模型,做到直接打字搜索具体自动驾驶场景;基于生成式 AI ,调整 ROBOTAXI 数据采集视角与量产上市车型统一,并能根据文本生成定制化自动驾驶视频。

LD 地图:百度地图的折中之法

什么是 LD 地图?

百度副总裁尚国斌先向我们倒了阵苦水:一线城市的高精地图制作费用通常需要上亿元,并且不包含后续的维护费用;转向无图化的道路,虽然泛化能力强开城速度快,但对比现实场景会少许多要素,精度也无法时刻保证。

因此百度地图的思考,是在「有图」与「无图」的交集中,寻找出折中的办法——车道级导航地图,即 LD 地图,号称自动驾驶的原生地图便应运而生。

“用自动驾驶的思维去测绘地图。”一语点醒梦中人,LD 地图的思考开始豁然开朗。在专业采集车、智能网联车与路侧的感知设备提取到道路的第一手信息后,百度地图的视觉感知大模型开始对这些数据进行学习与训练。

在前文基础模型的熏陶下,想必你也能较为简单的明了这套大模型的运作逻辑——识别要素、场景理解、推理生成、拓扑关联,大模型代替了原先地图测绘中大部分的繁琐以及后续的更新工作,这对于地图测绘而言无疑是减负的。

而在大模型的作用下,地图测绘也有了「开城」的概念,“全国城市都能开,智驾有图才安全。”尚国斌说道,而安全,便是减负后增加的部分。

在图层的概念下,LD 地图叠加了限速、车道与轨迹的经验图层;匝道与路口通行的安全图层;红绿灯和动态事件构成的实时图层。在图层叠加的情况下,LD 地图对于安全的理解,对比无图化部队明显更进一步。

“全国都能开,只是基础。智驾要像人一样开,比人更安全。未来大家打开百度地图看到有车道级导航的地方,就一定可以放心开 PPA。”

SIMO:端侧大模型是未来语音助手方向

“为什么其它车型同样用上 8295 ,却做不到极越 01 这样的车内语音体验?”百度语音首席架构师贾磊,发出了这样一段灵魂质疑。

网络不稳定,导致语音助手的反应速度慢;有限的算力,让语音助手的上限变得一眼望尽;语音对话采集,其中的隐私风险,现代人又防不胜防。

有基于此,搭载离线的端侧大模型,能够有效弥补上述车内交互中的痛点。贾磊为我们在系统和算法上详细讲解了一波:

首先是系统创新上,极越语音团队将整个语音交互系统“搬进”了车载 NPU 中。这样做的好处是带来了更快的语音交互响应速度——将声学模型、语言模型、置信度和语义解析都放进了一体化的建模中,接收车内人员指令后,能够一次性并行向系统输出结果。

其次是算法,极越语音团队创造了全新 smlta2 声学建模技术,将中/英文、普通话/方言的模型都进行了统一;而针对后续 6/7 座车型的多音区算力压力,语音团队还进行了一波“减压”——将原先需要分散再增强识别的音频素材,整合进一种波束,做到了多合一的情况下依旧能准确识别输出。

而在最后,贾磊预告了一个让我们意想不到的操作——利用视觉感知与语音融合的多模态交互技术即将上车。

在加入视觉感知后,系统可以通过观察发出指令者的唇动特征,进行同向的干扰声源消除,提升抗噪能力;同时确定指令者方位,还能提升定向的拾音效果。

编辑总结

“昨天的领先只是暂时,今天的领先已在路上。”我非常喜欢贾磊在语音篇章中的这页 PPT,没有永恒领先的对手,只有步步上爬的登山者。

此时此刻恰如彼时彼刻,当我们还在为过去新势力们取得的先进技术喝彩时,今日已然是更先进技术加入这场内卷风暴的时间。但正如最后一句话所言,“最强的技术还在明天。”这是所有智能化团队的统一追求,所谓的全国都能开,是门票,也是一轮新的起点。

就让我们看看,极越在 AI DAY 的大放异彩后,还能为我们带来何许惊喜吧。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧