AI 大模型驱动全面进化一文看懂极越 AI DAY_文章

姜硬

2024-03-26

关注

AI 大模型驱动全面进化一文看懂极越 AI DAY

文章

3 月 25 日，极越在百度科技园举办了首届极越 AI DAY 。

作为背靠百度思考的纯电车型品牌，极越在智能化层面显然拥有着属于自己的独特想法，而在这场 AI DAY 活动中，极越就智驾、地图、语音这属于极越的三大核心领域进行了全面革新。

本篇文章，就由姜硬与大家一起回顾，本次极越 AI DAY，极越为大家带来智能化领域新的思考吧。

智能驾驶：用 AI 思维重构自动驾驶

“具备「体验跨沟」潜力的高阶智驾，需要具备四个必要条件：城区领航辅助驾驶、全国都能开、系统体验安心、数据飞轮快速演进。”

百度智驾首席研发架构师王亮，向我们循序渐进地介绍，极越关于未来智能驾驶的核心因素。

在过去的一年中，极越在春节期间创造了 93% 的用户整体智驾渗透率、500,000 公里的领航辅助道路覆盖、324 次 AI 模型迭代上车……折算为每一天的视角，极越几乎只需要一天多一些的时间，便能迭代一次 AI 模型，推进超过 1000 公里的领航辅助道路覆盖。

这是极越的微小成绩，但在成绩背后，依托视觉感知的极越 01 ，本身在智能驾驶的路线上便和其他对手有着不一样的思考：

-用视觉解决一切的愿景网络

激光雷达生成的是单调的点云，而视觉看到的是五彩斑斓的真实世界，如何设计算法提取视觉感知到的海量信息，便成为了王亮团队需要做的事情。

信号灯、机动车、行人……如何让模型掌握通用的泛化学习能力？王亮介绍了属于极越的第一步 AI 思考——“Vision takes all”，VTA Net 。在这套大模型网络中，王亮向我们介绍了其基座，也就是预训练感知基础大模型。

王亮深入浅出地为我们讲解了这套基础模型：“相当于一个博士生，ta 刚入学的前两年里，并不会直接接触团队的核心课题，而是从基础课程学起，这样才能在日后进入核心课题时有着更深入的理解。”这套基础模型在 VTA 网络中也起到相似的作用，即打好基础，帮助 VTA 更好的理解真实世界。

因此基础模型的第一阶段，是利用现阶段累计的自动驾驶数据，进行无标注的自监督学习训练；第二阶段则是进行通用的视觉学习任务——此时便不止于车辆录取的数据信息，而是通过互联网上海量的图文信息，进行通用的视觉训练。

在打好基础后，基础模型进入下一步的“课程开题报告”阶段——目标检测、实时建图、时序跟踪、场景理解。即度过了通用学习阶段后，基础模型开始针对特定任务，进行垂直领域的深耕与训练。

“在这四大核心能力都成立的基础上，便能更加接近端到端的感觉，可以对场景里发生的事情进行理解、相应的推理和动作。”王亮解释道。

-更强大的视觉 OCC 占用网络

虽然 OCC 占用网络已经在 1.3 版本里上车，但在 1.3 跨步到 1.4 版本中，极越的 OCC 占用网络模型新增了超过 1 亿帧的数据；同时更新了 1.4 的早鸟用户中，有 72% 认为避障能力有所提升。

而据王亮介绍，再之后基于视觉 OCC 的占用网络还会进行一轮新的升级，覆盖「行」与「泊」全场景：

在高速/城区/低速泊车场景里，视觉 OCC 能够调取不同的性能数据，在视距、分辨率和刷新率方面根据不同的场景进行定制化的性能调用。

而在基础模型与视觉 OCC 的双重进化后，视觉能力还能得到极大的开发——

视觉被遮挡从而感应不到的物体，可以通过跟踪能力“脑补”物体轨迹；
支持更多的道路元素识别、更强的测距能力和道路拓扑能力，基于视觉信息进行实时建图；
强化的“阅读理解”能力，支持做出更敏捷的的决策路径，更加“端到端”的推理与执行。

总体而言，视觉感知基础大模型实现了系统决策与规划能力的阶跃，而在这类大模型的背后，则是极越背靠百度三大计算中心提供的超大规模 AI 运算能力——超 2.2EFLOPS 的 GPU 算力、30PB 数据缓存、98% 有效训练时长、95%带宽有效性。

而在最后，王亮还向我们分享了两个基于不同模型创造出高效率识别的场景片段：基于文心大模型，做到直接打字搜索具体自动驾驶场景；基于生成式 AI ，调整 ROBOTAXI 数据采集视角与量产上市车型统一，并能根据文本生成定制化自动驾驶视频。

LD 地图：百度地图的折中之法

什么是 LD 地图？

百度副总裁尚国斌先向我们倒了阵苦水：一线城市的高精地图制作费用通常需要上亿元，并且不包含后续的维护费用；转向无图化的道路，虽然泛化能力强开城速度快，但对比现实场景会少许多要素，精度也无法时刻保证。

因此百度地图的思考，是在「有图」与「无图」的交集中，寻找出折中的办法——车道级导航地图，即 LD 地图，号称自动驾驶的原生地图便应运而生。

“用自动驾驶的思维去测绘地图。”一语点醒梦中人，LD 地图的思考开始豁然开朗。在专业采集车、智能网联车与路侧的感知设备提取到道路的第一手信息后，百度地图的视觉感知大模型开始对这些数据进行学习与训练。

在前文基础模型的熏陶下，想必你也能较为简单的明了这套大模型的运作逻辑——识别要素、场景理解、推理生成、拓扑关联，大模型代替了原先地图测绘中大部分的繁琐以及后续的更新工作，这对于地图测绘而言无疑是减负的。

而在大模型的作用下，地图测绘也有了「开城」的概念，“全国城市都能开，智驾有图才安全。”尚国斌说道，而安全，便是减负后增加的部分。

在图层的概念下，LD 地图叠加了限速、车道与轨迹的经验图层；匝道与路口通行的安全图层；红绿灯和动态事件构成的实时图层。在图层叠加的情况下，LD 地图对于安全的理解，对比无图化部队明显更进一步。

“全国都能开，只是基础。智驾要像人一样开，比人更安全。未来大家打开百度地图看到有车道级导航的地方，就一定可以放心开 PPA。”

SIMO：端侧大模型是未来语音助手方向

“为什么其它车型同样用上 8295 ，却做不到极越 01 这样的车内语音体验？”百度语音首席架构师贾磊，发出了这样一段灵魂质疑。

网络不稳定，导致语音助手的反应速度慢；有限的算力，让语音助手的上限变得一眼望尽；语音对话采集，其中的隐私风险，现代人又防不胜防。

有基于此，搭载离线的端侧大模型，能够有效弥补上述车内交互中的痛点。贾磊为我们在系统和算法上详细讲解了一波：

首先是系统创新上，极越语音团队将整个语音交互系统“搬进”了车载 NPU 中。这样做的好处是带来了更快的语音交互响应速度——将声学模型、语言模型、置信度和语义解析都放进了一体化的建模中，接收车内人员指令后，能够一次性并行向系统输出结果。

其次是算法，极越语音团队创造了全新 smlta2 声学建模技术，将中/英文、普通话/方言的模型都进行了统一；而针对后续 6/7 座车型的多音区算力压力，语音团队还进行了一波“减压”——将原先需要分散再增强识别的音频素材，整合进一种波束，做到了多合一的情况下依旧能准确识别输出。

而在最后，贾磊预告了一个让我们意想不到的操作——利用视觉感知与语音融合的多模态交互技术即将上车。

在加入视觉感知后，系统可以通过观察发出指令者的唇动特征，进行同向的干扰声源消除，提升抗噪能力；同时确定指令者方位，还能提升定向的拾音效果。

编辑总结

“昨天的领先只是暂时，今天的领先已在路上。”我非常喜欢贾磊在语音篇章中的这页 PPT，没有永恒领先的对手，只有步步上爬的登山者。

此时此刻恰如彼时彼刻，当我们还在为过去新势力们取得的先进技术喝彩时，今日已然是更先进技术加入这场内卷风暴的时间。但正如最后一句话所言，“最强的技术还在明天。”这是所有智能化团队的统一追求，所谓的全国都能开，是门票，也是一轮新的起点。

就让我们看看，极越在 AI DAY 的大放异彩后，还能为我们带来何许惊喜吧。

新出行极越01社区极越01

内容类型	等级	单次可使用赞赏积分
普通内容 /评论区	Lv.0-Lv.1	1
	Lv.2	1、5
	Lv.3及以上	1、5、10、20、50
推荐内容	/	1、5、10、20、50
官方内容	/	1、5、10、20、50

内容类型	等级	单次可使用赞赏积分
普通内容 /评论区	Lv.0-Lv.1	1
	Lv.2	1、5
	Lv.3及以上	1、5、10、20、50
推荐内容	/	1、5、10、20、50
官方内容	/	1、5、10、20、50

{{title[status]}} 清空 同意

报名信息

{{item.rule_title}}

活动说明：

一、线下活动报名方式

二、温馨提示

三、安全事项

四、特别声明

暂无符合条件车系

{{item.name}}共{{item.model_count}}个车型

扫码联系客服

打开微信扫二维码进群

{{{0: '待核销', 1:'已取消', 2:'已核销', 3: '已过期'}[signDetail.signStatus]}} 你已成功报名该活动，到达现场时出示手机核销码验票入场 该核销码已成功被核销，欢迎参加本次活动 该活动已过期，你可以继续报名其他活动

{{signDetail.title}}

核销码信息：{{{0:'待核销', 1:'已取消', 2:'已核销', 3: '已过期'}[signDetail.signStatus]}}

进社群

{{signDetail?.groupInfo?.summary}}

活动场地

官方动态

{{v.type == 7?'投票':'话题'}}{{v.type == 7?'':'#'}} {{v.title}}

{{item.rule_title}}

{{i.title}}

{{ { 1: '车友交流群', 2: '官方车主群', 3: '车友交流群' }[detailData.category_id] }}

{{ detailData.title }}

微信扫码 添加客服

姜硬

智能驾驶：用 AI 思维重构自动驾驶

-用视觉解决一切的愿景网络

-更强大的视觉 OCC 占用网络

LD 地图：百度地图的折中之法

SIMO：端侧大模型是未来语音助手方向

编辑总结

最近使用

我的收藏

大家上传的表情

最近使用

所有表情

XCX07550XvDW

一龙马克斯 极越01

一龙马克斯 极越01

XCX07550XvDW

可立刻 Lv.1

反弹 Lv.4 4周年勋章 使用新出行4周年啦！ 阿维塔11

一龙马克斯 极越01

XCX16731g2ll

XCX9407ZE3rv

蜗牛仔

XCX16731g2ll

XCX9407ZE3rv

XCX1562728097 Lv.2

图图在充电 Lv.3 500天签到勋章 连续签到500天勋章奖励 XCX-MEMBER 新出行成员勋章，通过分享2024年度报告获得。「限时活动」 G6

前排沙发空着～

{$level.circle_title}{ ['超', '高'][$level.circle_level-1] }活跃用户

{$level.circle_title}{ ['超', '高'][$level.circle_level-1] }活跃用户

{$level.circle_title}{ ['超', '高'][$level.circle_level-1] }活跃用户

生成议题

社区推荐

选择举报原因

回复评论

最近使用

我的收藏

大家上传的表情

最近使用

所有表情

发表评论

最近使用

我的收藏

大家上传的表情

最近使用

所有表情

选择赞赏金额规则

积分赞赏人员

{{item.author.username}}赞赏了 {{item.integral}} 积分

积分赞赏规则

一、关于积分赞赏

二、积分怎么玩

三、积分赞赏额度说明

四、怎么领取别人赞赏的积分？

五、更多规则说明

分享至：

{{title[status]}}
清空

{{{0: '待核销', 1:'已取消', 2:'已核销', 3: '已过期'}[signDetail.signStatus]}} 你已成功报名该活动，到达现场时出示手机核销码验票入场该核销码已成功被核销，欢迎参加本次活动该活动已过期，你可以继续报名其他活动

{{v.type == 7?'投票':'话题'}}{{v.type == 7?'':'#'}}
{{v.title}}

微信扫码添加客服

一龙马克斯极越01

一龙马克斯极越01

反弹 Lv.4

4周年勋章

使用新出行4周年啦！

阿维塔11

一龙马克斯极越01

图图在充电 Lv.3

500天签到勋章

连续签到500天勋章奖励

XCX-MEMBER

新出行成员勋章，通过分享2024年度报告获得。「限时活动」

G6

地址管理

{{address.id?'编辑':'新增'}}地址

{{{0: '已预约', 1:'已取消', 2:'已完成', 3: '已过期'}[reserve_info.status]}} 感谢预约试{{reserve_info.series_name}}，请按时前往试驾。感谢试驾{{reserve_info.series_name}} 预约试驾{{reserve_info.status==1?'已取消':'已过期'}}，你可再次发起预约。

核销码信息：试驾成功核销返{{reserve_info.integral}}新出行积分已取消{{[2,3].indexOf(reserve_info.status)>-1?'/已过期':''}}