别急着教AI开车,先让它看懂世界
创始人
2026-03-21 23:37:59

头图|AI生成

过去两三年,中国自动驾驶的竞争,更多比拼功能推进速度。

谁开得更远,谁覆盖城市更多,谁体验更稳。高速NOA、城市领航、自动泊车,这些功能构成了绝大多数车企的叙事基础。只要功能能持续上线,竞争就可以继续。

但这套逻辑正在接近上限。

一方面,主流玩家在功能层面已经逐渐拉齐,差距在缩小;另一方面,越往复杂场景走,系统越依赖整体能力。

复杂场景考验的,往往不在于“有没有某个功能”,而在于系统能不能把识别、判断和动作连续地完成。

这类能力一旦成为主导,单纯叠加功能就很难再直接提升整体表现。功能可以一项项补齐,但只要系统还是“磕磕绊绊”,复杂场景里的不稳定就无法根除。

这意味着,自动驾驶的竞争重点,正在转向系统如何组织能力。数据、算力、工程调优当然都重要,但当系统复杂度继续上升,它们最终都要服从一个更底层的逻辑:这套能力是如何被组织、调用、迭代的。换句话说,架构开始决定上限。

更直接一点:功能决定的是今天能不能卖,架构决定的是明天还能不能继续变强

对理想来说,这个变化尤其关键。

过去,理想最强的标签是产品定义与家庭场景体验;但一旦进入架构竞争阶段,理想就必须证明,自己不只擅长做一台让用户喜欢的车,也能定义下一代自动驾驶系统应该长成什么样。

MindVLA-o1,就是理想对这场架构之争的回答。

AI上车后,系统上限卡在哪?

自动驾驶今天面对的,早已不是规则算法的问题。过去几年,行业主流方案已从规则驱动,逐步转向端到端、VLM、VLA等AI架构。

2024年,理想推出端到端+VLM双架构,让系统第一次具备跨场景、跨任务的统一理解能力。再往后,空间理解、语言理解与行动决策在2025年被进一步收进同一套VLA框架。此次发布的MindVLA-o1,则继续把自动驾驶向统一基础模型推进。

问题在于,架构从规则驱动切到AI驱动,并不意味着系统上限就自动被打开了。

端到端的价值很大,减少了传统分模块系统里的信息裁剪、接口损耗和反复调参,让自动驾驶开始从拼功能走向拼能力。但当场景更复杂、任务更连续时,新的门槛也随之浮现。

考验复杂驾驶的,已不只是系统能否识别某个目标、完成一次变道、执行泊车动作,而是它能否在连续变化的现实环境中,把理解、判断和行动更稳定地连成一体。

也就是说,越往复杂场景走,卡住系统上限的,就越不是单点能力够不够,而是现有架构能否继续往前推进。

即便行业已经进入AI阶段,难题也没有自动消失。

系统如何理解三维物理世界?如何推演未来几秒的变化?如何把判断直接转成稳定动作?长尾场景如何覆盖?更重的模型又如何部署到车上?

换句话说,今天行业真正碰到的问题,是现有的AI方案,能否继续向更统一、更强、也更可部署的方向推进。

也正因如此,行业开始把目光从功能系统进一步推向统一架构。MindVLA-o1,正是理想在这个问题上的一次作答。

教AI开车?理想要给车换大脑

那MindVLA-o1架构能解决什么问题?又是如何设计和落地?

理想给出的答案,是先把系统做成一个能统一理解、统一判断、统一行动的“驾驶大脑”。MindVLA-o1的意义就在这里:把竞争核心再往前推一步,从功能推进到系统,再推进到模型能力。

再往深一层看,它要解决的不仅是“车怎么开”,也是系统能否先建立起对物理世界的稳定理解。对理想来说,这是自动驾驶成立的前提,也决定了这套能力未来有没有可能走出驾驶本身。

从架构上看,MindVLA-o1没有把视觉模型、语言模型和轨迹模型先分别做出来,再在后期硬拼到一起,而是试图从一开始,就把三种模态统一放进同一个原生多模态MoE Transformer里。即便到了VLA阶段,空间理解、语言思考与行为生成之间的对齐效率仍然不够理想。

那么,它到底在解决什么问题?

第一,如何理解物理世界?

很多复杂驾驶场景,难点不在于“看见了什么”,而在于能否理解物体之间的三维关系,例如距离、速度、遮挡关系、动态变化。过去大量的视觉训练停留在二维层面,能识别语义,却未必能理解三维结构。

在李想看来,这极其荒谬:“一个人坐在电脑前学着开车,然后再到路上去开车。”

理想这次端出了3D ViT。核心逻辑很简单:不只让系统知道物体是什么,还要弄清它在三维空间里究竟处在什么位置。它采用以视觉为核心的三维视觉编码,借助激光雷达的几何提示,引导模型去理解真实空间结构,让语义理解和三维感知在同一套表示里对齐。

为什么底层的空间认知这么重要?“大部分搞模型的,都想直接做成年以后要做的事,拼命训练。但0-6岁孩子最重要的训练空间、训练能力,根本没解决。”

李想的比方足够接地气:“大部分人只要有小学学历,就能把车开得非常好,因为做了0-6岁对三维空间的训练。”

放到自动驾驶上,如果系统连“6岁前”该懂的三维世界都看不明白,底座就是摇晃的,后续再怎么叠加复杂的预测和控制模型,也注定走不远。

第二,如何面对变化?

驾驶不只是对当前状态的反应,更要面对持续变化的现实环境:旁车会不会加塞,行人会不会突然横穿,前车会不会临时变线。系统面对的不是静态画面,而是连续博弈。

理想强调多模态思考,在语言模型承担语义理解、常识知识和交互能力的基础上,再引入预测式隐世界模型,在隐空间中推演未来场景变化。核心就是把“看懂现在”,即识别眼前的景象,推进到“推演下一步”,预测接下来会发生什么。

此处还有一个关键的要求:驾驶既要“慢思考”,也要“快反应”。复杂场景中,判断往往要调用常识、语义理解和多步推理能力;但车在路上可等不了慢慢思考,必须立刻做出回应动作。MindVLA-o1能做的,是把这两种能力统一到一个框架里,让系统既能理解,又能快速推演。

第三,如何把判断变成行动?

这也解释了,为什么理想要尽量把感知、推理和控制放进同一套架构里。过去分模块系统的问题,并非某个单独模块能力低下,而是信息在模块间传递、裁剪、损耗,造成了别扭的局面:局部都对,连起来却不稳。

VLA阶段,空间理解、推理思考、行动决策已被统一到同一个模型框架中;而MindVLA-o1则通过引入专门的行为专家(Action Expert),从场景、特征、导航和指令等中提取信息,进一步提升对齐效率。

为满足实时性和精度要求,系统采用了并行解码,同时生成所有轨迹点,引入离散扩散,多轮迭代优化,确保轨迹符合车辆动力学约束。

这样一来,模型不仅会思考,更能把这些判断及时、稳定地转化成动作。

第四,如何快速学习,快速迭代?

长尾场景不断出现,只等真实世界的数据覆盖,即不高效,也不现实。模型不能只从已有的人类驾驶数据里学,还得能在世界模拟器中持续探索、试错、优化

为支持大规模模拟与训练,理想汽车开发了统一的三维高斯泼溅(3D Gaussian Splatting)渲染引擎和分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%。

这种闭环强化学习,推动系统在仿真环境中更快完成策略迭代。

第五,如何把前面的种种设想都落到实处?

很多大模型方案容易卡住的,不是实验室里做不出来,而是车端跑不起来。模型越重,能力越强,部署越难;为了能跑起来去做过多妥协,又很容易把效果做薄。

理想评估了近2000种模型架构配置,在英伟达Orin与Thor平台上找到了模型精度与推理延迟的帕累托前沿,大幅提升端侧VLA模型的设计与部署效率。

理想强调软硬件协同设计,本质就是在回答:车端资源有限,统一大模型怎么真正部署。毕竟,算力跟不上,模型再好也难有稳定体验。

正因如此,MindVLA-o1在技术集合的基础上,构建了一套完整的能力:先补空间理解,再补未来预判,再把判断变成稳定行动,同时借助闭环强化学习持续进化,并通过芯片、数据和软硬件,把这套能力推向量产。

理想认为,未来量产智驾最难的部分,不在于单项能力能否继续提高,而在于它们能否被系统稳定调用,最后连成一个完整的“驾驶大脑”。

如果这套判断成立,自动驾驶行业接下来争夺的,这就不再是谁的功能补得快,而是谁先找到“驾驶大脑”的正确形态。

逼近“驾驶大脑”,理想先走哪一步?

问题在于,自动驾驶走到今天,行业已隐约出现了共识:单靠功能堆叠,很难继续推高系统能力上限。无论是更强调安全冗余,还是更强调数据驱动和统一神经网络,近年的演进都说明,各路玩家都在朝更统一的系统能力收敛。

但共识只到这里。

真正的分歧,在于当行业开始从功能竞争转向架构竞争,究竟应该先解决什么问题、按什么顺序搭建能力?不同玩家判断并不一样,因此现阶段资源投放的侧重也有所不同。

有人把重点放在更高的安全边界和系统可靠性上,尽可能减少复杂现实中的不确定性;有人把重点放在更大规模的数据、训练和迭代机制上,希望系统在持续学习中,不断逼近更通用的驾驶能力。

而理想押注的重点,则是先把系统对物理世界的理解补扎实,再把预判、推理和控制尽量收进同一套逻辑里,既不单纯增加功能,也不为了更大的系统而拼凑模块。理想想证明,这套“看懂世界-推演变化-形成动作”的“驾驶大脑”能力框架,能够稳定地跑在车上。

这些不同优先级的选择,都在逼近同一个挑战:驾驶不是瞬时识别,而是连续判断;不是静态环境处理,而是动态博弈。想象力在于统一能力的上限,挑战则在于,统一架构能否在复杂现实中稳定落地。

短期竞争拼局部能力,长期竞争拼系统能否持续增长。谁的路径更能在复杂场景里保持稳定?谁的能力更能一层层积累?这恰恰是拉开差距的关键。

如果往前看,理想提出“自动驾驶只是物理AI的起点”,释放了一个更大的信号:MindVLA-o1为智驾功能服务只是起点,一套面向物理世界的统一智能基座才是它最终的星辰大海。

这套完整的AI框架,包含四个核心模块,统一数据引擎MindData、统一模型MindVLA-o1、多模态世界模型MindSim以及强化学习基础设施RL Infra。这四部分协同形成完整闭环,才是那个真正的“大脑”。

换句话说,自动驾驶在这里既是产品落地场景,也是能力训练场。今天先解决开车,未来再延展到更广泛的车载智能,甚至直接复用该模型控制机器人,迈向具身智能。

这个外延今天当然还谈不上被验证,但至少理想已经把自己的位置,从“更强的智驾”往“更通用的物理智能”上挪了一步。

若自动驾驶的核心变成基础模型能力,行业竞争逻辑也会随之变化。

竞争焦点会从功能覆盖转向模型能力;核心资源会从供应链优势,部分转向“数据+算力+模型”的组合能力。未来决定车企分层的,不只有产品、制造和渠道,还会多出一条标准:谁能持续训练和迭代“车的大脑”。

在这个格局里,理想已主动把自己放在了智能体路线的坐标上。

结尾

MindVLA-o1的意义,远不止一套新的智驾方案。在自动驾驶从功能竞争,走向架构竞争的时间点上,理想更明确地把赌注押向了“统一智能体”。

接下来几年,行业表面上的差异,仍然会体现在功能体验、开城节奏以及用户感知上;但更深层的竞争,正在转向——谁能把理解、预判和行动更稳定地组织起来,谁能让系统在复杂现实中持续积累能力。

自动驾驶是个入口,而理想下注的,是更大的方向:一套面向物理世界的统一智能能力。自动驾驶的下一阶段,未必马上分出胜负,但行业已经开始换题了。

过去比的,是谁把功能做得更全;现在比的,是谁先做出“驾驶大脑”;而未来要比的,则是谁先做出真正能够理解世界、持续成长的统一智能体。

理想这次发布MindVLA-o1,相当于在这个分叉点上提前押注了一个方向。这个方向能否兑现,要靠时间验证;但至少,它不再是一次普通的功能升级。

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

相关内容

热门资讯

百度网盘升级,融合OpenCl... 3月21日,百度网盘宣布全新升级GenFlow,并兼容OpenClaw能力,该功能已上线PC客户端及...
全球AI“最强大脑”集结海淀,... 北京青年报记者获悉,3月27日,2026中关村论坛年会“人工智能主题日”核心论坛——AI开源前沿论坛...
原创 百... 数码圈迎来平价革命,# 百元 AI 耳机封神 #话题登顶微博热搜,国产 AI 耳机彻底卷王上线,百元...
美团开源 LongCat-Fl... 3月21日消息,美团现已开源 LongCat-Flash-Prover 大模型,采用 5677 亿参...