人形机器人行业的 Unix 时刻

创始人

2026-05-17 16:05:06

|写在前面

这周我在中国移动首届具身智能合作伙伴大会上，做了一个 10 分钟的主旨演讲。

那不是一个特别长的演讲，但对桥介数物来说，是一个分量很重的时刻——我们第一次完整地、公开地，把过去三年我们想清楚的一件事讲出来。

这件事我们在内部讨论了很久，也犹豫了很久要不要这么早讲。但我们最终决定讲——因为我们越来越相信，这件事不是桥介一家公司的事，而是整个人形机器人行业正在面对的、最重要的结构性问题。

我想把之前讲过的，再扩展一些，写在这里。如果你在现场听过那 10 分钟，这篇是它的"扩展版"；如果你没听过，这篇会更完整。

下面是正文。

|16 家公司，同一件事

过去 18 个月，我们在公司内部，见证了一件不太被外界注意到、但我们觉得意义重大的事——

16 家人形机器人公司，从零到一的运动控制能力，是在我们这里完成的。

16 家公司，16 套独立的产品线，16 个不同的团队。

他们里面有上市公司的人形业务部门，有已获多轮融资的明星初创公司，有研究机构孵化出来的项目，也有从其它形态切入双足的资深整机厂。他们的资源、起点、技术风格都很不一样。

但我们看到一件事——他们的算法工程师，在做几乎完全相同的工作。

他们抛给我们工程团队的问题，是同一类问题。他们贴出来的报错日志，结构非常相似。他们解决问题的方法，最后也都收敛到相近的几条路径。

具体来说，他们都在解决这几件事：

硬件抽象：怎么把不同关节、不同电机、不同传感器、不同控制频率的本体，统一接入一套上层算法可以调用的接口
运动控制：怎么把强化学习训练出来的策略，部署到真实机器人上不出问题
仿真对齐：怎么让仿真里跑得好的模型，迁移到真实硬件上还跑得好
数据回流：怎么把机器人在真实世界里跑出来的数据，回流到下一轮训练，让能力持续演进

这四件事，几乎每一家做人形机器人的公司都在做。

每家公司的工程团队里，60% 到 70% 的人力，在解决和别家几乎一模一样的问题。

这件事让我们在公司内部停下来想了很久。

我们想的不是"这是一个生意机会"——这种想法太短期了。我们想的是：

为什么会这样？为什么 16 家完全独立的公司，在做一模一样的事？这件事在历史上有没有发生过？如果发生过，最后是怎么收场的？

|历史的两次回响

这件事我们其实并不陌生。

在过去半个多世纪的计算产业里，几乎完全相同的剧情，发生过至少两次。

半个多世纪前：Unix 出现之前

二十世纪六七十年代，大型机时代。IBM 自己写操作系统，DEC 自己写操作系统，Burroughs 自己写操作系统，Honeywell 自己写操作系统。每一家计算机公司，都在为自己的硬件写一套只能跑在自己硬件上的操作系统。

应用程序员只要换一家公司的机器，就得几乎从零开始学新的系统调用、新的文件格式、新的开发工具。整个计算产业的能力，被锁死在一家家公司各自的"垂直栈"里。

直到1969年，贝尔实验室的两位工程师 Ken Thompson 和 Dennis Ritchie 开始写一个东西，他们把它叫做 Unix。Unix 的设计哲学非常朴素——做一套跨硬件、可移植、可被任何人改、可被任何人扩展的操作系统。

Unix 不是某一家公司的"产品"，它是一种关于"操作系统应该是什么"的重新定义。它把"碎片"变成了"基础设施"。

Unix 之后的故事，今天我们都知道了：Linux、BSD、macOS、Android、iOS——今天世界上跑着的几乎所有操作系统，都是 Unix 哲学的直系或旁系后裔。

整个计算产业的真正起飞，不是从晶体管开始的，是从 Unix 开始的。

近 20 年前：Android 出现之前

二十一世纪初，智能手机时代的前夜。诺基亚有 Symbian，黑莓有 BlackBerry OS，摩托罗拉有自己的固件，每一家手机厂，都在为自己的硬件写一套只能跑在自己硬件上的固件。

应用开发者要做一个能在多家手机上跑的应用，几乎是不可能的——你得为每一家手机厂的固件单独适配。整个移动应用生态，被锁死在一家家手机厂的"垂直栈"里。

2008 年，Android 发布。Android 不是一台手机——Android 是一套任何手机厂都可以拿去用、并且必须用同一套接口来接入应用生态的操作系统。

Android 之后的故事我们也都知道了：整个移动应用生态用了 5 年时间，走完了 PC 应用生态 20 年的路。

两次相同的结构

这两次"操作系统时刻"，结构惊人地一致：

一个新的计算范式正在兴起（大型机 / 智能手机）
每一家硬件公司都在重造同一套底层软件
行业的真正阻力不在"算法不够好"或"硬件不够强"，而在没有一套被广泛认同的、可以让能力跨硬件复用的"基础设施层"
当这一层出现的那一刻，整个产业以远超此前的速度起飞

我们看了很久之后的判断是：今天的人形机器人行业，正处在和那两次完全相同的结构位置上。

|缺的不是更聪明的算法

这件事意味着什么？我们的判断是这样的——

人形机器人时代缺的不是更聪明的算法，缺的是机器人软件必须变得更通用。

我知道，这句话可能听起来有点反直觉。

过去两年，整个行业的注意力几乎全部集中在"算法"这件事上——更强的强化学习、更大的 VLA 模型、更聪明的端到端策略。每一次新论文、每一次新 demo，都把行业的目光往"算法越聪明越好"的方向上拽。

我们不否认算法变聪明这件事的重要性。但我们想说的是——

如果今天人形机器人行业唯一卡住的事情是"算法不够聪明"，那么这件事会在 12-24 个月内被自然解决——因为算法的进步速度，是今天 AI 产业里最快的那一档。

但如果你真的去看这 16 家公司每天在工程上花掉的人力，你就会发现，他们花在"让一个聪明的算法在真实机器人上稳定、安全、可重复地跑起来"这件事上的时间，远远超过花在"让算法变得更聪明"这件事上的时间。

这就是为什么我说——缺的不是更聪明的算法，缺的是软件必须变得更通用。

一个聪明的算法，如果只能在某一台特定本体上、某一个特定场景里、某一段特定时间内跑起来——它对整个产业的价值是有限的。

只有当一个聪明的算法可以被跨本体地部署、被毫秒级地稳定执行、被持续地与真实世界对齐，它才真正成为一种"产业能力"。

而要做到这件事，这个行业需要一个"操作系统"。

今天，我们认为——

「人形机器人行业的 Unix 时刻，正在发生。」

这是演讲里中说的那句话，也是这整篇文章想说的核心。

|它不是什么

那么，人形机器人时代的操作系统，到底是什么？

这是一个比"它不是什么"更难回答的问题。因为今天行业里已经有几个被大家熟悉的名字，很容易让人误以为"那个东西就是操作系统了"。

所以我想先说三个它不是什么。

它不是 ROS

ROS 是一个非常优秀的工具。我们公司内部很多工程师都是从 ROS 的世界里成长起来的，我们对它有充分的尊重。

但是 ROS 不是人形机器人时代的操作系统。

ROS在本质上是一个模块间通信框架，它让机器人系统里的感知、规划、控制等不同模块能拼装在一起。它源自2007年前后科研社区的探索，核心抽象是Node/Topic/Service这一套基于发布订阅的消息传递机制。

这件事本身做得很好。但它从来不是为大规模生产部署设计的——它不解决跨硬件抽象的问题，它不解决毫秒级实时控制的问题，它不解决跨本体能力沉淀的问题。

ROS 在我们这个时代的角色，更像是早期 Unix 时代的"管道（pipe）"——一个有价值的通信机制，但它不是操作系统本身。

它不是 NVIDIA Isaac

Isaac 也是一个非常优秀的产品。它在仿真、训练、合成数据这些事情上，给整个行业提供了非常重要的基础设施。

但是 Isaac 不是人形机器人时代的操作系统。

Isaac 是一个训练时（Training-time）平台——它让一台机器人在仿真世界里学会做一件事。它的能力边界，止于"训练"和"仿真"。

它不解决一件事——一台真实的机器人，在真实的工厂、真实的家庭、真实的道路上，每一毫秒、每一天、每一年的运行问题。

这件事在行业里有一个被严重低估的区分——训练时（Training-time）和运行时（Runtime）是两件完全不同的事。

让机器人"学会"一个动作，和让机器人在真实物理世界里稳定地走、安全地动、持续地做——这是两套不同的工程问题，需要两套不同的系统能力。

Isaac 把"训练时"这一面做得很扎实。但"运行时"这一面，今天行业里没有一个被广泛认同的答案。

它不是 VLA 大模型

VLA（Vision-Language-Action）大模型是 2024 年到 2026 年人形机器人行业最受关注的方向之一。Physical Intelligence、Google DeepMind、银河通用、智元以及很多其它优秀的团队，都在做这件事。

VLA 大模型也不是人形机器人时代的操作系统。

VLA 大模型在干一件非常重要的事——它解决"机器人要做什么"这件事。给定一个语言指令、一段视觉输入，VLA 模型输出一个高层的动作意图。

这是机器人的认知大脑。这件事极其重要。但它不解决另一类问题——

当这个高层意图被给出之后，怎么把它变成毫秒级稳定的关节扭矩输出？怎么在执行中保证不摔倒、不伤人、不损坏自己？怎么在 24/7 的运行中持续保持稳定？怎么在硬件磨损、传感器漂移、环境变化的情况下持续工作？

这一类问题，VLA 大模型没有解决，也不打算解决——因为它处理的是"做什么"这一层。

要让一个"知道做什么"的大脑，真正变成一个"能稳定、安全、持续地做"的机器人，中间需要一整套系统能力。这套系统能力，今天行业里没有一个被普遍接受的名字。

|那它到底是什么

讲完三个"它不是什么"，我们再讲它是什么。

我们把它叫做——Runtime Robot OS，运行时机器人操作系统。

这个名字里有一个关键词："Runtime"——运行时。

它和"训练时"是一对相对的概念。训练时关心的是"机器人能不能学会"，运行时关心的是"机器人能不能在真实世界里跑起来"。 这两件事是同等重要的，但它们是两套问题，需要两套系统。

Runtime Robot OS 必须同时具备三件事：

跨本体的硬件抽象（Multi-Embodiment Abstraction）

它必须能让上层的策略、模型、应用，不感知底层硬件的差异——不论是双足、四足、轮足，不论关节是直驱还是减速器驱动，不论传感器配置如何，上层都能用统一的方式访问。

这件事在历史上，操作系统已经做过两次：

PC 操作系统让应用不感知 CPU 是 Intel 还是 AMD、显卡是哪一款
手机操作系统让 App 不感知是哪一家手机厂的硬件

Runtime Robot OS 要做第三次——让机器人应用不感知是哪一家本体。

毫秒级的实时安全执行（Real-time Safe Execution）

它必须能在每一毫秒——不是每秒钟、不是每 100 毫秒——的尺度上，保证机器人的关节扭矩输出、力控约束、安全边界，是稳定的、可预测的、不会失控的。

这件事是机器人和"普通软件"最大的区别——一个普通软件卡顿一下，用户重启就行；一个机器人卡顿一下，可能会伤人、伤己、伤环境。

毫秒级的实时安全，是 Runtime Robot OS 的硬性底线。

与真实世界持续对齐的学习能力（Continual Real-world Alignment）

机器人不是一个一次性烧录、终身不变的设备。它在真实世界里运行，传感器会漂移，硬件会磨损，环境会变化，任务会演进。

Runtime Robot OS 必须有能力——把每一台机器人在真实世界里的运行经验，沉淀下来、回流回去、训练成下一代能力，并安全地推送回所有机器人。

这是机器人时代真正的"数据飞轮"。它和今天大模型行业的"用户反馈强化学习"不是同一件事——后者是文本，前者是物理。

这三件事，现有的任何系统都没有同时做到。

ROS 做了一部分通信抽象，但没有跨本体能力、没有实时安全、没有学习闭环。

Isaac 做了一部分训练时能力，但它不在运行时上。

VLA 做了一部分认知抽象，但它不解决执行和持续学习。

只有当一套系统同时做到这三件事，它才有资格被称为"机器人时代的操作系统"。

我们为什么相信这件事是可行的

讲到这里，可能有人会问——

"你说的这件事听起来很重要，但它真的能做出来吗？还是说这只是一个 PPT 概念？"

这是一个非常合理的问题。我想认真回答。

三年前，桥介数物在创立之初，我们做了一个对我们今天意味深长的决定——不做整机、不做大模型、不做应用，专门做"运动控制"这一层。

这个决定在 2023 年看起来不那么聪明——那个时候，做整机是 sexy 的，做大模型是热的，做应用是有客户的。专门做"中间层"，对外讲不清楚、对内压力也很大。

但我们做这个决定，是基于一个判断：

机器人行业终将分层。谁能把运动能力从"项目交付"变成"基础设施"，谁就掌握了物理世界 AI 化的关键入口之一。

三年下来，我们今天可以摆出一些可以被验证的事实：

26 家人形机器人公司用上了我们的运动控制能力
50 多款结构差异显著的足式机器人——双足、四足、轮足，不同关节布局、不同驱动方式——跑在同一套运动学习与控制系统之上
把一台新机器人从硬件接入到拿到第一个可用步态的工程周期，从最初的"项目级人月"压到了"周级别"
这件事的本质是——为每一个新本体单独搭一套系统这件事，在我们这里被替换成了"一套系统 + 工具链对新本体的自动化适配"

我说这些数字，不是为了讲桥介。是为了讲一件事——

我们不是在描绘一个未来的故事。我们是在用工程事实，给这个品类做存在性证明。

这一层是可行的。它可以被抽象出来。它可以跨本体复用。它已经在被 26 家公司用脚投票。

这件事到这一步，已经不是一个 PPT 概念了，它是一个被工程实践反复验证过的事实——只不过今天它还集中在"运动能力"这一根支柱上。

Runtime Robot OS 的完整形态，远不止运动能力一根支柱。但一根支柱被工程证明是可行的，意味着这套系统的整体可行性有了第一块基石。

|端、边、云——完整形态的三层

到这里，我想往前推一步，讲一个更大的画面。

我们做了端侧的 OS 内核。但 Runtime Robot OS 完整的形态，远不止端侧。

它会有三层——

端侧（On-device）

毫秒级的实时控制层。让每一台机器人在物理世界里，安全地走、稳定地动。

这是机器人能"活着"的最低门槛。也是今天桥介在做的核心。这一层必须在机器人本体上完成，不能依赖网络——因为网络延迟会直接转化成机器人摔倒。

边缘（Edge）

场景级的技能编排层。让一个园区、一条产线、一个家庭里的多台机器人，协同地工作。

这一层不要求毫秒级的实时，但要求秒级的协同。多台机器人之间的任务分配、空间共享、能力互补——这件事不在端侧完成（端侧没有全局视角），也不在云端完成（云端延迟太大）。它在边缘。

云端（Cloud）

跨本体的能力沉淀与持续学习层。让每一台机器人的经验，都变成所有机器人的能力。

这是真正的"数据飞轮"——一台机器人在某个家庭里学会了开冰箱，这个能力可以——在保证安全、隐私、所有权的前提下——成为所有同型号机器人的共享能力。

这三层，缺一不可。 缺了端侧，机器人不能在物理世界里活下去；缺了边缘，机器人在群体场景里没法协同；缺了云端，机器人没有真正的进化能力。

把这三层完整地做出来，是 Runtime Robot OS 的完整形态。这件事不是一两年的事，是十年量级的工程。

|新基础设施——OS + 算力网络

这件事在历史上有几个对应的影子。

PC 时代，新基础设施叫"操作系统 + 互联网骨干"——Windows / Linux 配上 TCP/IP 和光纤网络，应用得以在全球流转。

移动时代，新基础设施叫"Android + 4G/5G"——一个统一的应用栈配上一张覆盖几十亿人的无线网络，整个移动互联网得以发生。

在机器人时代，它会叫——

「Runtime Robot OS + 算力网络。」

这是机器人时代的新基础设施。

它的两个组件，缺一不可：

Runtime Robot OS 解决"一台机器人怎么稳定、安全、持续地运行"
算力网络 解决"几百万、几千万台机器人的端、边、云三层算力，怎么被统一调度、统一编排、统一服务"

这两件事，任何一家公司都无法独立完成。OS 公司不可能去自己铺一张覆盖全国的算力网络；网络与算力基础设施提供方也不可能从零去做一套机器人时代的运行时操作系统。

它需要——OS 提供方，和网络与算力基础设施提供方的深度协同。

这件事正在发生。我们站上那次的演讲台，是因为我们相信——这件事不再是一种愿景，它是一个正在被多方推动的、真实正在发生的产业进程。

|写在最后：这是一个邀请

我想用演讲结尾说过的一段话，来结束这篇文章。

每一次计算范式的转变，历史上都会留下一次 Unix 时刻——总有人站出来，把碎片变成基础设施。

大型机时代有人这样说过，于是有了 Unix。智能手机时代有人这样说过，于是有了 Android。今天，人形机器人时代，轮到我们这一代人来说这句话了。

这不是一家公司的事。不是一家整机厂的事。不是一家运营商的事。不是一家芯片厂的事。不是任何单独一家公司的事。

这是一个时代的开端。

接下来几个月，我们会陆续把我们的思考、我们的产品、我们的工程实践——一项一项地呈给行业。我们会请行业同行一起讨论、一起争论、一起把它打磨得更对。

但比这些都更重要的是——

我们今天写下的一切，不是结论，是一个邀请。

我们期待和每一位关心机器人行业的工程师、研究者、创业者、投资人、政策制定者——一起定义这个时代的操作系统应有的样子。

如果你也相信"碎片应该变成基础设施"——

这就是邀请。

尚阳星

桥介数物（BridgeDP）创始人 & CEO

2026 年 5 月 17 日 · 深圳

上一篇：开源证券：给予海菲曼增持评级

下一篇：荣耀AI首席科学家黄非：人机交互的终极形态，是AI真正成为人