{{detailStore.author.is_follow?'已关注':'关注'}}
Banyan 3.3.0推了几天,收到了很多车友的使用分享,有一天深夜在大雨老师的群里,针对新版的选道特性,激烈探讨了1个小时,我发现对于新版有的车友非常喜欢,也有的车友是反过来的,恰恰也是因为「特性」,我们后面展开来讲 我的评价,Banyan 3.3.0就是日常好用,只要开ET7,必用NWM,但是这里有个前提(我们测试的版本,并没有不达速的问题) 为什么新版的进步如此之大? 为什么新版还是比预期晚发布了? 结合佘博和少卿的公开课,以及我们的观察,一起聊一下Banyan 3.3.0 的背后 先把大家的反馈总结一下: -优点: 1、可用性质的飞跃@看看外面的世A 2、选道能力强 3、障碍绕行决策果断@nviDia老黄挖过你吗 4、舒适性强,没有过多急刹 5、停车场漫游的控车更强@楢崎高浩 -问题: 1、快速路不达速 2、跟前车车距较远 3、变化频繁的路口无效变道多 4、安心感弱 5、强行变道 上述的问题应该大家都有遇到,我除了第1个都遇到了,毕竟跑了1000km不止,几个高优的问题已经在做紧急优化了,会比较快做发版修复 我们是12月底到漕河泾体验的新版,刚开始我是不抱任何预期的,因为有几个月的时间,一直在等新版本,然后也没有听到相关的好消息,只能说藏的太深了,在这次沟通上面,我们也终于知道了新版本为什么会没有按照预期发布,而是晚了一个月,佘博跟大家聊的时候,第一句话就是这几个月的时间非常煎熬,不仅用户等的煎熬,开发也是相当煎熬,原因是什么呢? 25年5月,NWM 1.0发布,版本号是Banyan 3.2.0,全量之后大家总结了高频问题,变道压线、选道犹豫、驾享没有打灯、跟慢车等问题 25年8月,Banyan 3.2.2 发布,驾享支持打灯变道,更早进入多次变道车道、路口犹豫优化 但是问题没有得到根治,选道犹豫、跟慢车、最后时刻强行变道的情况还是没法全部解决,按照计划,这些问题还会再次进行发版优化,时间是10月底的版本(原3.3.0),内部也在进行开发 一个直击灵魂的问题摆在眼前,10月底的版本(原3.3.0),能不能把问题根治?答案很明显,不能。 当时10月底要发版的软件几乎准备就绪,到了可以发版的时候,少卿说宁愿版本往后,也要全部推倒重来,All in 新范式的开发(少卿的这个决定,内部引起了轩然大波,也有很多人不理解,没有少卿的坚持,就没有现在全新的Banyan 3.3.0) 还记得去年大家说的神秘版吗?可以理解为Banyan 3.3.0 的雏形,我也是在不经意间试到的那个版本,训练量少的可怕,只有万级的训练片段,开起来问题也很多,强的是基础能力,跟3.2.2天差地别,选路不卡了,控车更顺了,问题就只有1个,能不能量产出来?能不能真的解决大量的问题? 也就比较好理解,为什么佘博刚开始就说他们也很煎熬(开发了2个月的新版准备发了,说要全部推翻,当时肯定非常崩溃 新版为什么解决了大部分的问题?回到少卿经典的画布,Code 1.0,Code 2.0,Code 3.0 *Code 1.0,就是规则时代,体感就是比较生硬,每一步用久了都能预判到,刚开始的效果可能会很好,但是不断调整,加更多规则, 会越来越臃肿,迭代的难度也会越来越大,佘博评价Code 1.0用了一个字「僵」,能明显看到它就是一个机器,有的场景就会停住,“你接管吧” *Code 2.0,数据驱动的辅助驾驶,端到端+模仿学习,比传统的规则来说肯定是有巨大进步,通过海量的驾驶数据让模型进行模仿学习,NWM 1.0就是这个范式,视频也有讲,如果要解上面1.0的问题,在Code 2.0当中,可以通过SD+地图,采专家数据,以及加更多的规则来解问题,但是SD+地图实际也是一种规则,并且要大量的费用,专家数据要人要费用,所以本质上,还是没办法很好去解决问题(受限于CBU[doge] 在Code 2.0时期,理论上数据变多,模型能力也会越强,但是因为数据的分布较多,模型自主选择就会变得混乱,也有可能数据分布多,但是样本过少,模型信心不足,也会回退到左右摇摆的情况 实际表现就是NWM 1.0的模型在面临选择的时候左右摇摆,举起不定,就会倾向于平均/保守策略,平均跟保守有时候是一致的,模型为了防止碰撞而选择保守的策略,比如跟慢车更加安全,所以降低绕行的处理策略,模型就跟慢车就好了,不动就不会犯错,带来的结果就是降低了非常多的效率,用户就会觉得模型慵懒,唯唯诺诺,不果断 *Code 3.0,Reward强化学习时代,世界模型+闭环强化学习,在新的范式下,世界模型的作用是推演和预测,强化学习负责决策和控制,模型不断尝试,不断进化,最终收敛。Banyan 3.3.0 就是一个完整的强化学习版本 几天前的面对面,少卿用一个路口选道例子来说明,在一个仿真器当中让模型变道到最右车道,核心指标是安全、安心、舒适、合规,效率,核心指标完成越好,奖励越大,具体怎么操作,让AI自己来解决,比如说合规方面,如果压实线,就扣分,如果产生碰撞,扣大分,模型就会自己进行摸索,像玩游戏一样 强化学习的基础,第一步还是模仿学习,大量学习到人类的行为和人类行为的分布,没有预训练,强化学习就行不通,没有Code 2.0 就没有Code 3.0,第二步是基于世界模型做长时间的推理,第三步是高频次的给到模型的表现进行反馈,模型不但知道人类是如何驾驶,也能精准知道某一个行为的得分是怎么样的 比如说加塞的场景,佘博说第一种操作是强行加塞,这种操作显得比较鲁莽,安心感会比较差,第二种是稍微提速,敏捷插空,看起来更加灵活,在闭环强化学习当中,可以教会模型两种操作的差异是什么?尽量让模型去学习第二种,避免第一种情况 在Code 2.0 的时代,每一家都花了非常多的钱去挑好的驾驶行为数据,因为这样子教出来的模型它会有大概率吐出好的轨迹,虽然没有办法避免平均陷阱,这个我们最近印象非常深,地平线HSD的数据够好了吧,但是也存在跟慢车以及变道不积极的情况,很好印证了上面的观点,但是地平线认为他们在模仿学习上面还可以做的更好 佘博说在强化学习时代,大量的数据可以很脏,也没有问题,以前模仿学习学的是概率,就会害怕脏数据 但是现在强化学习,教会模型的是每一种行为的反馈,它的精华还是长时序能力跟纠偏的能力上面 所以可以看到新的范式,可以兼顾安心和效率,比如说选道,给模型一个目标和奖惩,模型能把选道错误的概率降到很低,同时会去做一些提前的动作,比如说窄路通行,只要有空间,就可以迅速起步,因为强化学习会告诉模型一个非常强的激励,可以走就不要停下来,如果可以走,但是模型停了,模型会受到惩罚。 在导航选道的方面,佘博说闭环推理+强化学习非常擅长解决这类问题,模型知道1km之前如果不换道,1km之后可能就会受到惩罚,那模型就会尽早进行换道 防御性驾驶方面没有特别去做强化学习,并没有教模型在路口要慢一点,但是模型在探索的过程中发现如果路口转的太快,有概率会有碰撞的惩罚,所以模型在路口就会去降速,强化学习的精髓是延迟奖惩,就是模型如果现在不做防御性动作,并不会当前受到惩罚,而是10秒之后、20秒之后受到惩罚,模型会把10秒、20秒之后的惩罚反哺到决策,可以理解为为了快,所以慢 简单来讲,端到端往往只有短时记忆,但是强化学习可以为了最终目标去做决策,比如说为了两个路口后的安全通行去做当下的决策(我们的视频里面也有案例,左转过后要接辅路,辅助驾驶左转之后就顺势到了第三车道,省了2次变道时机,做更长远的决策) 强化学习也不是一点问题没有,比如说模型变道的优先级变得无敌高,舒适性、交规在这个时候模型都不会去看,只有选到目标车道才是它的首要目标,于是在有一些场景下面,我们就会看到模型因为选道,速度降的很低,不惜压线、不惜博弈也要完成选道的情况,通过这个我们不难看出,上个版本的选道困难,真的困扰了整个团队,跟佘博聊天,她说她们整天都在跟AI斗智斗勇,如果奖励设的不够合理,AI就会钻空子,比如说前面施工场景,如果撞了扣大分,那模型有可能会选择在跟前停下,为了不被扣分 现在所有的奖惩都是人类监督,会跟人类的偏好对齐,来看打分的科学性 还有2点值得分享,Banyan 3.3.0 的代码量只有3.2.0的‌1/10,可以说是化繁为简,训练量官方并没有直言,给了一个范围,大概是友商的‌1/5 有当下这样的表现,我觉得是满意的,面对面的时候用户直接问少卿,新版有没有回到第一梯队?少卿的回答是,最终反馈是在用户用或者不用上面,用数据说话 Banyan 3.3.0 新范式、新开始,至于体验方面以大家为准,该夸夸,该喷喷 还有几个版本,跟大家一块验证 #新能源汽车##蔚来世界模型全新版本发布#
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{ is_favourite ? '已收藏' : '收藏' }}
  • {{ is_personal_top ? '取消主页置顶' : '个人主页置顶' }}
  • 举报
  • 加入黑名单
  • 内容{{ eyes_only ? '公开' : '仅自己' }}可见
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{ feature?'撤销':'进' }}精选库
  • {{ digest?'撤销精华':'设为精华' }}
回到顶部