德卤爱开车

德卤爱开车

新出行认证:汽车博主

简介:焉知新能源汽车 创始人

成就:首页推荐191次、社区推荐20次、精华推荐52次

关注16 粉丝617 获赞22300

  • 加入黑名单
  • 创作成就
  • 最新
  • 动态
  • 文章
  • 视频
  • 点评
  • 闲置
  • 投票
  • 个人信息
  • 门店优惠
  • 全部
  • 动态· {{circleNum.ins_num}}
  • 文章· {{circleNum.article_num}}
  • 视频· {{circleNum.video_num}}
  • 点评· {{circleNum.remark_num}}
  • 闲置· {{circleNum.sale_num}}
  • 全部
  • {{item.name}}·{{item.contentNum}}

优惠活动

抵扣券

权益礼包

【理想马赫VLA 和 蔚来NWM 2.0】 昨天理想发了一张智驾的架构图,我知道大家都在等一个 NWM 和 马赫 VLA 的分析。 刚落地,在飞机上我把能找的资料都快翻烂了,写了一些我的理解,我也是互联网学生,写错了大家指出就行了,别怼天怼地,实在不行,你亲自写。 好了叠甲完成,现在开始。 先说共同点 在两家的资料里,不约而同都出现了 World Model 这个词。 理想的叫 Predictive Latent World Model (预测式隐世界模型),藏在架构深处,负责 隐式推理; 蔚来的叫 NWM(NIO World Model),是整个系统的核心主角。 但同样是世界模型,两家对它的定位完全不一样,这个不一样,解释了后面所有的技术区别。 一、架构起点:信息怎么进去 理想:多路编码并行输入 看理想架构图,左侧是四条并行的输入通道: 1. Long-term Memory / User Preference(长时记忆/用户偏好) 这是理想新增的输入通道,记录用户的驾驶习惯和偏好,比如用户喜欢激进还是保守的变道风格、常用路线等 2. Encoder(解码器),标准传感器编码器,处理原始感知数据 3. 3D ViT Encoder(3D视觉编码器),处理多视角摄像头图像,输出3D视觉token序列 4. Text Tokenizer(文本分词器),处理语言指令。 四条通道并行编码后,统一进入 Native Multi-Modal Transformer(原生多模态Transformer)。 这意味着理想在输入层面就把不同模态对齐到同一个表示空间里了,语言、视觉、用户偏好、历史记忆,统统编码成统一的token序列,共享后续的处理。 这里有个关键点:语言和视觉在进入Transformer之前就已经完成了模态对齐,不是到了Transformer里才互相看见。 蔚来:传感器直连世界模型 蔚来的NWM 2.0架构里,没有显式的Text Tokenizer路径。 蔚来的逻辑是:世界模型直接从传感器数据(摄像头、激光雷达、毫米波雷达)里学习,语言是后来叠加的模块,不是原始输入。 这和任少卿一直强调的视频是比语言更底层的认知一脉相承,婴儿不需要语言就能学会躲避障碍物,驾驶能力同样不需要语言介入就能学会。 所以蔚来选择让世界模型直接从原始传感器流里 看 世界,语言是给人类交互用的,不是给机器决策用的。 当车辆的智能程度越高,我们越要想车在想什么? 这是差异最大的地方。 理想用一条链路同时跑两件事,看理想的架构,中间层有四个并行模块: - Prefill KV-Cache:推理时的上下文缓存,加速后续token生成 - Reasoning Decision(思考决策):System-2的显式推理,慢思考模块 - Latent World Model(隐世界模型):在隐空间里做未来预测,不是生成视频,是在压缩空间里推演场景演变 - Trajectories(轨迹):最终输出的轨迹 关键在于这四个模块不是串行的,而是并行共存于同一个前向传播里。 思考决策和隐世界模型同时运行。 Reasoning Decision负责显式的语言式推理,当前是什么场景,应该用什么策略; Latent World Model负责隐式的未来推演,如果我这样做,接下来几秒会发生什么。 两者结果互相参考,最终生成轨迹。 这就解释了为什么理想叫它 Predictive Latent World Model。 它不是靠生成视频来想象,而是在隐空间里做预测。隐空间是经过压缩的高维表示,信息密度高但不可直接解读,所以叫 隐空间。 这种设计的好处是,计算效率远高于显式视频生成,但代价是无法直接可视化 车在想什么。 你想知道系统在想什么,只能通过Decode Output 来看它的文字解释,而不是看它生成的视频。 蔚来NWM 2.0的决策逻辑完全不同。 架构核心理念从 生成-筛选 变成了直接生成唯一最优解。 蔚来1.0时代是,感知到 生成216条候选轨迹 到 规则打分 再到 选最优 最后 执行 蔚来2.0时代:感知直接到世界模型直接输出唯一最优轨迹 再 执行 这个转变的关键在于:2.0版本的模型不是在运行时 挑 轨迹,而是在训练阶段就已经通过强化学习学会了 什么样的决策是最优的。 运行时不需要再生成216条再筛选,直接输出一个确定的、最优的结果。 所以蔚来2.0的latency更低、可解释性更强,因为只有一条轨迹可以回溯,但代价是,训练难度更高,你必须确保模型在训练时见过足够多样的场景,否则遇到没见过的就容易出错。 蔚来的另一个关键机制是,每100毫秒重新生成一次。 不是按一条既定轨迹跑到底,而是高频重评估:每个100毫秒窗口,模型重新推演216种可能性,重新找最优解。 这意味着蔚来的系统永远处于 实时思考 状态,动态响应能力很强。 在这些之下其实对模型的训练要求更高了。 从架构图底部七个模块可以看出理想的完整训练体系: 第一层:Native Multi-Modal Transformer 基础是原生多模态Transformer架构,视觉、语言、动作共享同一个backbone。 训练时三者的梯度同时回传,互相约束。 第二层:Predictive Latent World Model + System-2 Explicit Reasoning 隐世界模型负责在隐空间里做未来预测,System-2负责显式语言推理。 两者是并行的,隐世界模型不需要语言参与就能推理,但System-2的推理结果可以注入到轨迹生成里。 这里System-2的定位更像是 解释器 而不是 决策者,它输出的是当前场景的语义理解和决策的理由,这些信息帮助人类理解车的行为。 但控制信号直接从隐世界模型出来,不经过System-2。 第三层:Closed Loop RL for Generalization(闭环强化学习) 这是让模型能突破人类数据上限的关键。 理想通过在仿真环境里设定目标,让模型自己探索怎样才能达成目标,而不是单纯模仿人类司机。 仿真器里的奖励函数,成功抵达目标给正分,违章给负分驱动模型自主优化策略。 蔚来NWM 2.0的训练体系是三层叠加: 第一层:世界模型 + 自监督视频预测 训练目标是给定过去3秒视频,预测接下来会发生什么。 模型从海量视频里自己学会物理规律,不需要人工标注。 第二层:监督微调(SFT) 蔚来在2026年5月这次升级里,把SFT(监督微调)引入了训练流程。 在自监督视频预测之后,用高质量的人类驾驶数据做精细的行为雕刻,让模型的输出更像正确的老司机,而不是平均水平的司机。 第三层:闭环强化学习 蔚来是国内第一个真正量产落地完整闭环强化学习的自动驾驶系统。 它先是构建仿真环境,设定一个目标线,比如成功通过这个路口,让模型不断尝试,成功穿越给奖励,用时短额外加分,压实线扣分。 模型在仿真器里自我进化,探索出超越人类司机习惯的最优策略。 蔚来强调,这种方式不需要SD+(地图指引),不需要专家数据,只要仿真环境能构建出类似场景,模型就能自己学会。 这是泛化性最强的训练方式。 其实在整个辅助驾驶系统里最重要的是,怎么让决策怎么变成好的动作。 理想这边从架构图看,行为输出的核心技术是 MoE Action Parallel Decoding。 它不是整个模型所有参数都参与每次推理,而是动态选择最相关的专家子网络来处理当前输入。 这让模型可以很大,但不拖慢推理速度。 用并行解码的方式,轨迹的所有点同时生成,不是逐个自回归。 一次性输出完整轨迹,然后执行。 这是量产架构,其实和之前论文里提到的Flow Matching有出入。 量产版本选择了更工程化的MoE+并行解码,而不是论文里的扩散模型路线。 之前 8.0、8.1、8.2 选道很垮,轨迹生成非常差,估计和扩散有关。 蔚来NWM 2.0的动作输出有一个重大变化是:横纵向控制一体化。 1.0时代:横向(方向盘)由模型控制,纵向(速度)由模型+规则共同控制 2.0时代:横向和纵向完全由模型一体化输出,不再有规则参与的双轨制。 这意味着方向盘转角和油门/刹车力度,由同一个模型同时决定,而不是两个模块分别决定再合并。 好处是加减速和转向的衔接更丝滑,坏处是调试难度更高,两个控制维度耦合在一起,出问题不好定位。 蔚来2.0还做了一件重要的事,去掉传统轨迹规划层。 车不再先规划一条路径,而是直接输出控制信号给执行器。 路径信息压缩在模型的隐表示里,不显式出现。 其实看到最后,你会发现他们俩最大的区别不是系统的设计和技术差异,而是产品理念。 他们对 用户 和 辅助驾驶 之间的关系思考,至少看起来是不一样的。 至于怎么不一样? 你可以猜一猜。

德卤爱开车 点赞 5 评论 4

图 1 是理想上一代架构; 图 2 是理想现在的新架构; 有点难理解,但整体还行,解释一下: 理想两代架构对比:为什么'绕过语言'是正确的一步 两代架构放在一起,最容易看出来的变化是:中间那层不见了。 上一代有Spatial → Linguistic → Action,三段式。 这一代把'语言'那层压缩掉,视觉信号和文本信号直接进模型,出来就是动作。 但'去掉语言层'这件事,不是字面意思那么简单。 它背后有一套因果逻辑,值得认真拆解。 语言模型在中间扮演什么角色? 先回答一个问题:为什么上一代要用Mind GPT做中间层? 语言模型的核心能力是语义理解和常识推理。 '停在站台边的公交车可能要起步',这个判断不是像素直接告诉你的,是你知道公交车通常不会无缘无故停在路边,有人上车才会启动。 知道这个常识,才能做出正确判断。 所以上一代的思路是:先用3D编码器把视觉信息压缩成语义特征,再让语言模型在语义层面做理解和推理,最后靠扩散解码器把推理结果翻译成可执行的轨迹。 语言在这里充当了一座桥。 视觉信号先过桥变成文字,语言模型在彼岸推理,推理结果再过桥变成动作。 这座桥本身不是问题。 问题是桥的两端在不同的世界里。 语言模型的'输入'是离散的符号序列,'输出'也是离散的符号序列。 一张2D图像被编码器压缩成一系列token,token之间是离散的语言符号。 但驾驶不是离散符号,它是一个连续的物理过程,旁车的速度、它和你的相对距离、道路曲率下一秒会怎么变化,这些信息在语言符号的离散空间里不可避免地会被压缩。 更关键的是,驾驶需要多步推演。 '如果我现在变道,旁车3秒后会减速。' 这不是一个静态的语义理解,而是一个动态的条件预测。 语言模型能理解'A会导致B',但它的下一个词预测机制不显式建模时间维度上的因果链,它能输出'A导致B'这句话,但'因为A所以B'的推演过程藏在模型的权重里,从外面看不到。 换句话说:语言模型能给出对的答案,但它的推理过程不可审计。 这在聊天场景里不是问题,答案对就行。 但在自动驾驶场景里,'为什么'和'是什么'同样重要。 如果系统做了一个决策,工程师需要知道决策的依据是什么,才能判断这个决策是否合理、边界在哪里。 上一代用语言翻译搭的桥,在推理和动作之间留下了一个不透明的灰色地带。 隐空间推演是什么? 这一代的核心变化,就是把推理从语言空间挪到了隐空间。 隐空间不是语言符号构成的空间,而是连续数学构成的空间。 它的每一个点不是一个词或一个标签,而是一个连续的状态向量。 连续空间天然适合描述物理过程。速度、距离、加速度、相对位置,这些物理量在隐空间里直接对应向量运算,不需要被翻译成'前车速度较快'这样的离散标签再处理。 隐世界模型在这里做的,是把当前场景编码成隐空间里的一组向量,然后用这组向量推演未来几步的状态变化。 不生成像素,不生成文字,直接在连续空间里'想象',如果我做了动作A,未来某个时刻系统的隐状态会变成什么样。 这套机制能解决'多步推演'的问题。 语言模型能做一步推理(看到公交车,输出'可能起步'),但两步以上的条件推理(如果我减速它会怎样、如果我加速它会怎样)需要在前一步的结果上继续推演,每一步都有信息损耗。 隐世界模型不一样——它推演的是连续状态,每一步之间的信息传递是向量之间的数学运算,没有离散符号翻译的损耗。 这就是为什么隐空间比语言空间更适合驾驶推理。 不是因为数学上更先进,而是因为驾驶这个问题的本质就是连续物理过程,用连续空间建模天然比用离散符号建模更匹配。 显式推理的必要性。 但隐世界模型有个弱点:它推演的过程也在隐空间里,外面看不到。 模型输出了一个决策,但你不知道它为什么做了这个决策。隐状态变了,你知道状态变了,但不知道为什么会变。 这对产品来说是可接受的——用户不需要知道车的'脑子里'在想什么。但对工程来说不可接受。 出了问题,调参没有依据,边界情况一个接一个地冒出来。 所以这一代加了一个'系统2'层,把隐空间的推理结果翻译成可读的逻辑表达。 我认为这辆公交车正在等人,所以我选择减速跟随而不是绕行。 这句话不是驾驶决策本身,而是决策的推理链。 它输出给用户,是解释; 输出给工程师,是调试依据; 输出给验证流程,是可追溯的决策记录。 系统2不改变决策结果,它把决策过程显式化了。模型在隐空间里做推演,在语言空间里说清楚,两个过程并行存在,各司其职。 动作生成的三层设计。 推演完了,接下来是动作生成。 上一代用扩散解码器做轨迹生成,过程是:输入一个带噪音的轨迹,通过多轮去噪迭代,逐渐恢复出一条干净、合理的轨迹。 扩散生成的好处是质量高,每一步迭代都在约束轨迹的物理合理性。但坏处是慢——多轮去噪需要串行计算,推理延迟有下限。 这一代没有把扩散解码器扔掉,而是把它拆成了三层: 第一层:Action Expert。 从3D场景特征、导航目标、驾驶指令中提取关键信息,生成一个'大概对'的初始轨迹。 快,但不精确。 第二层:Parallel Decoding。 把所有轨迹点并行输出,不是一个点一个点生成,而是一次性生成完整轨迹。 解决的是速度问题。 第三层:Discrete Diffusion。 对并行生成的轨迹做多轮去噪精修。解决的是质量问题。 三层各司其职:Action Expert给出方向,Parallel Decoding给出速度,Diffusion给出精度。 上一代是'精但慢',这一代是'快的基础上求精'。 两者不是替代关系,而是分工关系。 最后说一下长时记忆。 上一代架构在上下文层面支持用户偏好——当前会话里的驾驶习惯可以被感知和调用。 但这种偏好存储在上下文窗口里,关机即消失,不跨session。 这一代有了显式的Long-term Memory模块。 用户偏好被持续学习、长期存储,不依赖单次会话的上下文长度。系统记住你偏保守、喜欢在中间车道跑、经过这个路口习惯提前并线,这些偏好跨时间积累,持续影响模型决策。 这个变化在架构层面意味着什么? 意味着用户偏好不再只是'当前这轮对话的输入',而是模型权重调整的一部分。 系统不是根据你说了什么临时做决策,而是根据你过去怎么开车,持续校准决策风格。 不是'记住你说了什么',是'记住你是什么样的人'。 上一代的答案是'语言空间'。 视觉信号翻译成语言,语言模型在语言层面推理,推理结果翻译成动作。 三次翻译换来了可解释性,代价是信息损耗和延迟。 这一代的答案是'隐空间'。 视觉信号和语言信号一起进入隐空间,在连续数学里直接推演,最后把推理过程显式翻译成可读的解释。 推理和动作在同一个空间里完成,没有翻译损耗。 绕过语言不是因为语言模型不够强,而是因为驾驶这个任务的本质是连续物理过程,在连续空间里做推理比在离散符号空间里更匹配问题的数学结构。

德卤爱开车 点赞 4 评论 2

本来今天这个应该是一个软件发布会,现在变成了软件和具身智能战略发布会。

德卤爱开车 点赞 3 评论 4

一、车机芯片算力演进趋势 2026年车机芯片算力将全面超越同期手机芯片,覆盖CPU、GPU、NPU三大核心算力维度。 - 演进路线: 从2019年的820A 2022年的8155 2024年的8295 到2026年的骁龙8797 Max/8797 Elite车机芯片,性能持续跃升,最终在三大算力维度均反超手机芯片。 二、SS HW 4.0座舱平台 1. 核心硬件:搭载高通骁龙8797车规芯片,核心参数为CPU 504K、GPU 8.1T、NPU 320TOPS。 2. 代际提升:对比上一代8295芯片,CPU性能提升2.3倍,GPU性能提升2.8倍,NPU算力提升7倍。 3. 交互体验:支持90Hz高帧率显示,操作达到毫秒级响应:应用切换400ms、语音唤醒320ms、远程空调启动800ms、语音响应610ms、休眠唤醒1500ms。 4. 架构设计:采用集中式HU域架构,整合SOC、MCU、电源管理模块,可外接多屏显示、多摄像头、音响系统、各类外设接口与车控模块,扩展性强。

德卤爱开车 点赞 5 评论 1

【极氪9X,6万台背后的三个小观察】 极氪9X累计交付破6万台,连续7个月拿下50万以上大型SUV销量第一。 这个数字放汽车行业里,算不上什么惊天动地的大新闻。毕竟大型SUV本来就不是走量的市场。 但极氪能把9X推到这个位置,还是有些东西值得说说。 第一,定位卡得准 50万以上的大型SUV,消费者要的是什么?说白了就是既要大、又要贵、还要不一样。 燃油车时代这个价位的选择就那么几个,BBA加个凯迪拉克,消费者选来选去都是差不多的套路。 极氪进场的时候切了一个很巧妙的点,国产新能源旗舰,用料扎实、配置拉满、价格比BBA还实在。 这套打法在009上验证过,搬到9X上依然管用。 第二,销量是结果,口碑是护城河 7个月连续第一,说明这不是某一两个月的脉冲式爆发,而是持续稳定的输出。 大型SUV的买家决策周期本来就长,试驾、比较、等车,折腾下来小半年是常态。 能在这个周期里保持稳定的交付节奏和订单转化,靠的不是某一两个爆点,而是产品力和服务口碑在持续起作用。 第三,6万台之后呢 极氪现在面临一个很现实的问题:9X已经把旗舰的天花板撑到了一个高度,后续不管是改款还是换代,压力都比以前大了。 一方面要守住现有用户群体的认可,另一方面还要持续吸引新用户入场。 口碑这东西上去容易下来快,接下来几个月的交付数据和用户反馈会是一个很实在的检验。 极氪这两年的成长轨迹其实挺清晰的——产品节奏踩得越来越准,品牌调性也在慢慢立起来。 9X的6万台是一个节点,但远不是终点。

德卤爱开车 点赞 3 评论 3

截止5月底,东风日产NX8锁单突破1.2万,骞总直播间立Flag。 NX8单月销量做到15-20万级合资中大型SUV第1,或销量/用户服务满意度冲进行业前3。 做到一条,请全国NX8车主的吃火锅。 说话算话,年底见分晓。

德卤爱开车

#何小鹏带队机器人冲刺量产##小鹏机器人200天冲刺量产#小鹏今天发了条内部信,何小鹏亲自带队机器人业务。 不是挂个名,是真的下场拉团队那种。 这个动作本身就是一个信号。 小鹏内部的高管分工一直比较清晰,何小鹏主要抓战略和产品节奏,具体的业务运营放手给团队。 这次把机器人业务收回来自己管,说明这个节点在他心里已经不是"可以交给别人盯着"的级别了。 他在信里把当前阶段类比成"8年前G3量产前夜"。这个表述是刻意选过的。 2017年G3发布前小鹏是什么状态,行业有记忆,那是真正要上量、真正要接受市场检验的时刻。 何小鹏拿这个时间点做参照,意思很明确:机器人业务不是还在研发里打磨的阶段,是真的要走出实验室、走向量产了。 2026年底量产,目标激进但有逻辑。 IRON人形机器人,年底量产,率先在小鹏门店落地。 这个时间表说不上保守。人形机器人赛道的热度今年一直很高,特斯拉Optimus、Figure、宇树,国内的智元、傅利叶,动作都在加快。 小鹏这时候喊出量产目标,竞争的紧迫感是真实存在的。 但小鹏做机器人有一个天然优势,供应链和制造体系可以复用。 汽车生产线对精密制造的要求不比机器人低,电池、电机、传感器这些核心零部件在两个品类之间有大量交集。 小鹏现在的工厂和供应链能力,如果真的能迁移到机器人业务上,成本控制和量产效率会比从零起步的对手快很多。 IRON走的是另一条路。 和小鹏在信里强调的四个关键词:最拟人、本地AI交互、最安全、全栈自研+跨域融合。 这和现在主流的人形机器人路线不太一样。行业里很多玩家在拼运动能力、拼关节数量、拼行走速度,小鹏强调的是AI交互和安全性。 这个选择和小鹏在智驾上的思路一脉相承,小鹏从来不只是一个造车公司,本质上是一家做AI能力输出的科技公司。 把汽车上积累的感知、决策、交互能力迁移到机器人上,这个逻辑是自洽的。 能不能成,看什么? 量产不是终点。 机器人进门店能干什么,终端用户认不认,商业模式能不能跑通,这些问题会比量产本身更难回答。 但有一点可以确定:何小鹏把"一号位"的决心拿出来了。 8年前他用这个态度推G3,最后把P7推了出来、G6卖到了月销过万。 这次能不能复制,看接下来的动作。

德卤爱开车 点赞 7 评论 7

上汽大众 ID.ERA 9X 的量出来了。 还是不错的,大家现在对于卖车都很焦虑,大众这边的产品现在是跑起来了。 所以能看到有了不错的结果。 后面还有好几款车在路上了。

德卤爱开车 点赞 2 评论 1

乐道 L60 大家还是要认真看一下, 过去我们一直讲这款车 baas 后价格有多低, 但事实上是,这款车的产品更值得多讲讲。 L90、L80 都有自己的产品特征, L60 似乎不太突出, 但这显然是一个错误。 这两天陆续已经有智驾的体验放出来了, 统一软硬件之后这个能力确实被无限释放了, 一句话:nio 有什么智驾体验,L60 也就是什么体验, 这里并没有说 乐道,而是确实要强调 L60, 能耗 就不用说,一千公里补能一次, 这会让很多第一次接触纯电的用户感到惊讶。

德卤爱开车 点赞 9 评论 2

上汽奥迪 E7X 标配 后排娱乐屏,而且还是 21 寸的,非常夸张。 我之前问过为什么不标配冰箱,而且标配电视。 虽然没有明说,但总结就是,都知道冰箱的实用性是高于电视的,甚至更知道电视很多用户都打开不了几次。 但电视比冰箱的显性价值更大。 你看看,把厂家逼成啥样了。哈哈哈哈 你喜欢电视还是冰箱?

德卤爱开车

#小鹏P7+海外多国陆续开启交付#全球车小鹏P7+在挪威、法国等多个国家陆续开启交付。 小鹏汽车副董事长兼总裁顾宏地博士亲自为法国首台P7+车主进行交付。 作为一款面向全球的超大空间AI智能轿车,小鹏P7+今年1月份在欧洲上市,并在奥地利麦格纳工厂本地化生产。 首台下线时,本地的经济部长也亲自出席见证这款高品质全球车的落地。

德卤爱开车 点赞 10 评论 5

蔚来设计体系内,除了大名鼎鼎的 kris,大家还可以了解一下 CMF 团队。 蔚来 CMF色彩·材料·工艺团队: 1、斯蒂芬妮·瓦瑟(Stephanie Waser) - 履历:先后任职奔驰、福特,擅长多种材质组合与情感化设计 - 蔚来任职:CMF团队负责人,与弗洛里安·施密德共同打造蔚来 第二起居室 设计理念。 2、弗洛里安·施密德(Florian Schmid) - 履历:拥有独立工作室,擅长家居设计,风格温馨 - 蔚来任职:长期合作CMF顾问,优化内饰居家质感。

德卤爱开车 点赞 4 评论 1
你已将对方拉黑,无法查看其主页内容
由于用户设置,你无法查看其主页内容

暂无相关内容

暂无相关内容

试试换一个关键词搜索吧
已加载全部~