别急着教AI开车，先让它看懂世界_学习资源

别急着教AI开车，先让它看懂世界

创始人

2026-03-21 23:37:59

头图｜AI生成

过去两三年，中国自动驾驶的竞争，更多比拼功能推进速度。

谁开得更远，谁覆盖城市更多，谁体验更稳。高速NOA、城市领航、自动泊车，这些功能构成了绝大多数车企的叙事基础。只要功能能持续上线，竞争就可以继续。

但这套逻辑正在接近上限。

一方面，主流玩家在功能层面已经逐渐拉齐，差距在缩小；另一方面，越往复杂场景走，系统越依赖整体能力。

复杂场景考验的，往往不在于“有没有某个功能”，而在于系统能不能把识别、判断和动作连续地完成。

这类能力一旦成为主导，单纯叠加功能就很难再直接提升整体表现。功能可以一项项补齐，但只要系统还是“磕磕绊绊”，复杂场景里的不稳定就无法根除。

这意味着，自动驾驶的竞争重点，正在转向系统如何组织能力。数据、算力、工程调优当然都重要，但当系统复杂度继续上升，它们最终都要服从一个更底层的逻辑：这套能力是如何被组织、调用、迭代的。换句话说，架构开始决定上限。

更直接一点：功能决定的是今天能不能卖，架构决定的是明天还能不能继续变强。

对理想来说，这个变化尤其关键。

过去，理想最强的标签是产品定义与家庭场景体验；但一旦进入架构竞争阶段，理想就必须证明，自己不只擅长做一台让用户喜欢的车，也能定义下一代自动驾驶系统应该长成什么样。

MindVLA-o1，就是理想对这场架构之争的回答。

AI上车后，系统上限卡在哪？

自动驾驶今天面对的，早已不是规则算法的问题。过去几年，行业主流方案已从规则驱动，逐步转向端到端、VLM、VLA等AI架构。

2024年，理想推出端到端+VLM双架构，让系统第一次具备跨场景、跨任务的统一理解能力。再往后，空间理解、语言理解与行动决策在2025年被进一步收进同一套VLA框架。此次发布的MindVLA-o1，则继续把自动驾驶向统一基础模型推进。

问题在于，架构从规则驱动切到AI驱动，并不意味着系统上限就自动被打开了。

端到端的价值很大，减少了传统分模块系统里的信息裁剪、接口损耗和反复调参，让自动驾驶开始从拼功能走向拼能力。但当场景更复杂、任务更连续时，新的门槛也随之浮现。

考验复杂驾驶的，已不只是系统能否识别某个目标、完成一次变道、执行泊车动作，而是它能否在连续变化的现实环境中，把理解、判断和行动更稳定地连成一体。

也就是说，越往复杂场景走，卡住系统上限的，就越不是单点能力够不够，而是现有架构能否继续往前推进。

即便行业已经进入AI阶段，难题也没有自动消失。

系统如何理解三维物理世界？如何推演未来几秒的变化？如何把判断直接转成稳定动作？长尾场景如何覆盖？更重的模型又如何部署到车上？

换句话说，今天行业真正碰到的问题，是现有的AI方案，能否继续向更统一、更强、也更可部署的方向推进。

也正因如此，行业开始把目光从功能系统进一步推向统一架构。MindVLA-o1，正是理想在这个问题上的一次作答。

教AI开车？理想要给车换大脑

那MindVLA-o1架构能解决什么问题？又是如何设计和落地？

理想给出的答案，是先把系统做成一个能统一理解、统一判断、统一行动的“驾驶大脑”。MindVLA-o1的意义就在这里：把竞争核心再往前推一步，从功能推进到系统，再推进到模型能力。

再往深一层看，它要解决的不仅是“车怎么开”，也是系统能否先建立起对物理世界的稳定理解。对理想来说，这是自动驾驶成立的前提，也决定了这套能力未来有没有可能走出驾驶本身。

从架构上看，MindVLA-o1没有把视觉模型、语言模型和轨迹模型先分别做出来，再在后期硬拼到一起，而是试图从一开始，就把三种模态统一放进同一个原生多模态MoE Transformer里。即便到了VLA阶段，空间理解、语言思考与行为生成之间的对齐效率仍然不够理想。

那么，它到底在解决什么问题？

第一，如何理解物理世界？

很多复杂驾驶场景，难点不在于“看见了什么”，而在于能否理解物体之间的三维关系，例如距离、速度、遮挡关系、动态变化。过去大量的视觉训练停留在二维层面，能识别语义，却未必能理解三维结构。

在李想看来，这极其荒谬：“一个人坐在电脑前学着开车，然后再到路上去开车。”

理想这次端出了3D ViT。核心逻辑很简单：不只让系统知道物体是什么，还要弄清它在三维空间里究竟处在什么位置。它采用以视觉为核心的三维视觉编码，借助激光雷达的几何提示，引导模型去理解真实空间结构，让语义理解和三维感知在同一套表示里对齐。

为什么底层的空间认知这么重要？“大部分搞模型的，都想直接做成年以后要做的事，拼命训练。但0-6岁孩子最重要的训练空间、训练能力，根本没解决。”

李想的比方足够接地气：“大部分人只要有小学学历，就能把车开得非常好，因为做了0-6岁对三维空间的训练。”

放到自动驾驶上，如果系统连“6岁前”该懂的三维世界都看不明白，底座就是摇晃的，后续再怎么叠加复杂的预测和控制模型，也注定走不远。

第二，如何面对变化？

驾驶不只是对当前状态的反应，更要面对持续变化的现实环境：旁车会不会加塞，行人会不会突然横穿，前车会不会临时变线。系统面对的不是静态画面，而是连续博弈。

理想强调多模态思考，在语言模型承担语义理解、常识知识和交互能力的基础上，再引入预测式隐世界模型，在隐空间中推演未来场景变化。核心就是把“看懂现在”，即识别眼前的景象，推进到“推演下一步”，预测接下来会发生什么。

此处还有一个关键的要求：驾驶既要“慢思考”，也要“快反应”。复杂场景中，判断往往要调用常识、语义理解和多步推理能力；但车在路上可等不了慢慢思考，必须立刻做出回应动作。MindVLA-o1能做的，是把这两种能力统一到一个框架里，让系统既能理解，又能快速推演。

第三，如何把判断变成行动？

这也解释了，为什么理想要尽量把感知、推理和控制放进同一套架构里。过去分模块系统的问题，并非某个单独模块能力低下，而是信息在模块间传递、裁剪、损耗，造成了别扭的局面：局部都对，连起来却不稳。

在VLA阶段，空间理解、推理思考、行动决策已被统一到同一个模型框架中；而MindVLA-o1则通过引入专门的行为专家（Action Expert），从场景、特征、导航和指令等中提取信息，进一步提升对齐效率。

为满足实时性和精度要求，系统采用了并行解码，同时生成所有轨迹点，引入离散扩散，多轮迭代优化，确保轨迹符合车辆动力学约束。

这样一来，模型不仅会思考，更能把这些判断及时、稳定地转化成动作。

第四，如何快速学习，快速迭代？

长尾场景不断出现，只等真实世界的数据覆盖，即不高效，也不现实。模型不能只从已有的人类驾驶数据里学，还得能在世界模拟器中持续探索、试错、优化。

为支持大规模模拟与训练，理想汽车开发了统一的三维高斯泼溅（3D Gaussian Splatting）渲染引擎和分布式训练框架，渲染速度提升近2倍，整体训练成本降低约75%。

这种闭环强化学习，推动系统在仿真环境中更快完成策略迭代。

第五，如何把前面的种种设想都落到实处？

很多大模型方案容易卡住的，不是实验室里做不出来，而是车端跑不起来。模型越重，能力越强，部署越难；为了能跑起来去做过多妥协，又很容易把效果做薄。

理想评估了近2000种模型架构配置，在英伟达Orin与Thor平台上找到了模型精度与推理延迟的帕累托前沿，大幅提升端侧VLA模型的设计与部署效率。

理想强调软硬件协同设计，本质就是在回答：车端资源有限，统一大模型怎么真正部署。毕竟，算力跟不上，模型再好也难有稳定体验。

正因如此，MindVLA-o1在技术集合的基础上，构建了一套完整的能力：先补空间理解，再补未来预判，再把判断变成稳定行动，同时借助闭环强化学习持续进化，并通过芯片、数据和软硬件，把这套能力推向量产。

理想认为，未来量产智驾最难的部分，不在于单项能力能否继续提高，而在于它们能否被系统稳定调用，最后连成一个完整的“驾驶大脑”。

如果这套判断成立，自动驾驶行业接下来争夺的，这就不再是谁的功能补得快，而是谁先找到“驾驶大脑”的正确形态。

逼近“驾驶大脑”，理想先走哪一步？

问题在于，自动驾驶走到今天，行业已隐约出现了共识：单靠功能堆叠，很难继续推高系统能力上限。无论是更强调安全冗余，还是更强调数据驱动和统一神经网络，近年的演进都说明，各路玩家都在朝更统一的系统能力收敛。

但共识只到这里。

真正的分歧，在于当行业开始从功能竞争转向架构竞争，究竟应该先解决什么问题、按什么顺序搭建能力？不同玩家判断并不一样，因此现阶段资源投放的侧重也有所不同。

有人把重点放在更高的安全边界和系统可靠性上，尽可能减少复杂现实中的不确定性；有人把重点放在更大规模的数据、训练和迭代机制上，希望系统在持续学习中，不断逼近更通用的驾驶能力。

而理想押注的重点，则是先把系统对物理世界的理解补扎实，再把预判、推理和控制尽量收进同一套逻辑里，既不单纯增加功能，也不为了更大的系统而拼凑模块。理想想证明，这套“看懂世界-推演变化-形成动作”的“驾驶大脑”能力框架，能够稳定地跑在车上。

这些不同优先级的选择，都在逼近同一个挑战：驾驶不是瞬时识别，而是连续判断；不是静态环境处理，而是动态博弈。想象力在于统一能力的上限，挑战则在于，统一架构能否在复杂现实中稳定落地。

短期竞争拼局部能力，长期竞争拼系统能否持续增长。谁的路径更能在复杂场景里保持稳定？谁的能力更能一层层积累？这恰恰是拉开差距的关键。

如果往前看，理想提出“自动驾驶只是物理AI的起点”，释放了一个更大的信号：MindVLA-o1为智驾功能服务只是起点，一套面向物理世界的统一智能基座才是它最终的星辰大海。

这套完整的AI框架，包含四个核心模块，统一数据引擎MindData、统一模型MindVLA-o1、多模态世界模型MindSim以及强化学习基础设施RL Infra。这四部分协同形成完整闭环，才是那个真正的“大脑”。

换句话说，自动驾驶在这里既是产品落地场景，也是能力训练场。今天先解决开车，未来再延展到更广泛的车载智能，甚至直接复用该模型控制机器人，迈向具身智能。

这个外延今天当然还谈不上被验证，但至少理想已经把自己的位置，从“更强的智驾”往“更通用的物理智能”上挪了一步。

若自动驾驶的核心变成基础模型能力，行业竞争逻辑也会随之变化。

竞争焦点会从功能覆盖转向模型能力；核心资源会从供应链优势，部分转向“数据+算力+模型”的组合能力。未来决定车企分层的，不只有产品、制造和渠道，还会多出一条标准：谁能持续训练和迭代“车的大脑”。

在这个格局里，理想已主动把自己放在了智能体路线的坐标上。

结尾

MindVLA-o1的意义，远不止一套新的智驾方案。在自动驾驶从功能竞争，走向架构竞争的时间点上，理想更明确地把赌注押向了“统一智能体”。

接下来几年，行业表面上的差异，仍然会体现在功能体验、开城节奏以及用户感知上；但更深层的竞争，正在转向——谁能把理解、预判和行动更稳定地组织起来，谁能让系统在复杂现实中持续积累能力。

自动驾驶是个入口，而理想下注的，是更大的方向：一套面向物理世界的统一智能能力。自动驾驶的下一阶段，未必马上分出胜负，但行业已经开始换题了。

过去比的，是谁把功能做得更全；现在比的，是谁先做出“驾驶大脑”；而未来要比的，则是谁先做出真正能够理解世界、持续成长的统一智能体。

理想这次发布MindVLA-o1，相当于在这个分叉点上提前押注了一个方向。这个方向能否兑现，要靠时间验证；但至少，它不再是一次普通的功能升级。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

上一篇：贝索斯拟筹千亿美元基金布局AI制造

下一篇：行为数据成新抓手 AI社交探索匹配逻辑新路径

别急着教AI开车，先让它看懂世界

相关内容

热门资讯