BeingBeyond团队 投稿
量子位 | 公众号 QbitAI
近年来爆火的具身智能领域长期面对着数据孤立导致的训练困境,一线厂商凭借高投入建立独属于自研型号机器的“数据护城河”,而小厂的资产规模直接反映在数据体量上限制了其产品专用模型的训练。
BeingBeyond团队近日发布的Being-H0.5有望改变这一局面。
Being-H0.5是目前训练数据量最大的VLA模型,涵盖3.5万小时、超过1.6万小时人类数据和1.4万小时机器人数据,30种机器人形态,并凭借“以人为中心”的学习范式,首次在复杂人形机器人本体上实现了真正意义上的跨机器人零样本技能迁移。
Being-H0.5:打破商业僵局的“通用底座”
“马太效应”笼罩着具身智能行业:单一硬件的出货量决定了真机数采的上限,而数据规模又直接锁死了模型的表现。
对于大多数中小型本体厂商而言,这构成了一个残酷的闭环:缺乏海量数据导致Demo表现平平,进而影响商业化落地与融资。他们亟需一种能够跨越形态限制的强大具身基座模型。
BeingBeyond团队推出的Being-H0.5视觉-语言-动作(VLA)模型,正在改变这一现状。通过整合数万小时的人类演示视频及全球所有主流机器人的操作数据,Being-H0.5展现出了惊人的泛化能力:无论硬件构型如何异构,模型均能实现快速适配与稳定执行。
这意味着,硬件厂商将从枯燥的重复数采中解脱,将精力聚焦于形态创新与应用场景。
△图示中在多种形态机器人上部署的任务均由相同的模型权重实现
研究团队借鉴了NLP领域的底层逻辑:正如不同语言共享普适的语义结构,异构机器人(如单臂、双臂、足式、灵巧手)之间也应存在一套关于结构、空间与意图的共享知识,即“通用物理语法”。
然而,长期以来,不同硬件的控制参数与动作空间如同互不相通的孤岛,这种形态上的鸿沟阻碍了技能的跨平台流转,限制了具身智能的规模效应。
为打破困境,Being-H0.5将人类交互行为定义为物理世界的“母语”,将各类机器人的特定控制信号视为这种母语下的“方言”。
通过引入规模近乎无限的人类视频,模型得以汲取丰富的轨迹意图与物理先验,有效避免了算法在预训练中坍缩至单一本体的低维流形。这种范式不仅实现了低成本的跨本体泛化,更赋予了模型在复杂真实场景中极强的适应力。
UniHand-2.0:具身史上最大规模的“通用预训练语料库”
构建通用的“物理大脑”,海量高质量数据是核心基石。为此,团队在UniHand-1.0的基础上深度迭代,发布了2.0版本。
该数据集总时长突破3.5万小时,包含1.4万小时机器人轨迹、1.6万小时人类视频以及5,000小时通用多模态数据,总训练Token数高达1,200亿。
这是全球机器人领域首次实现如此大规模、深维度的跨本体数据整合与预训练实验。
与以往局限于“轮式底盘+双臂夹爪”范式的研究(如π系列)截然不同,UniHand-2.0真正终结了数据的“烟囱式”存储(Siloed data)——即每个本体公司的硬件形态都形成一套自成体系且封闭的数据系统。
它汇集了超过30种异构硬件的轨迹数据,涵盖从工业桌面臂到高动态双足机器人在内所有已知的机器人形态。
△人类视频、机器人操作、通用多模态,三种规模相仿的数据混合构成“铁三角”
△UniHand与现有VLA数据集规模对比:
超3.5万小时和30余本体,在规模和多样性上提升了至少3倍
针对人类视频标注稀缺的行业痛点,团队同步研发了UniCraftor——一套便携、可扩展且极具成本优势的人类数据采集系统,为大规模数据生产提供了标准化工具。
△UniCraftor:便携、可扩展、低成本的第一人称人类数据采集系统统一动作空间:消弭异构硬件的“维度鸿沟”
在Being-H0.5问世前,工业界鲜有尝试将如此庞杂的异构本体数据置于同一框架下训练。其核心挑战在于:不同机器人的状态空间与动作空间差异巨大,直接混合训练极易导致“数据冲突”,使模型难以收敛或陷入泛化瓶颈。
为此,BeingBeyond团队创新性地构建了统一动作空间框架(Unified Action Space)。该框架通过高度抽象的特征映射,将双足人形、轮式底盘、机械臂以及各类灵巧手映射至统一的表征空间。
这一方案打破了硬件维度的物理限制,为跨本体的联合训练与知识共享奠定了地基。
为了将这一蓝图变为现实,团队投入数月时间,对数万小时的异构数据进行了深度对齐。这一过程并非坦途,而是伴随着无数次的推倒重来。
实验发现,动作空间的平衡性远比想象中脆弱——算法底层的一丝疏漏,都可能引发训练过程的彻底崩塌。
然而,这种对精度的极端苛求也验证了团队的猜想:将混杂、异构的数据“囫囵吞枣”式地喂给模型,其产生的增益微乎其微。
长期以来,这种低效训练的弊端往往被后训练(Post-training)阶段的过拟合所掩盖。BeingBeyond坚持的深度对齐逻辑,正是为了在剔除冗余噪声的同时,挖掘出跨本体数据中最具价值的“通用特征”。
以人为中心的训练范式(Human‑Centric Learning)
基于统一动作空间与UniHand-2.0数据集,Being-H0.5确立了一套以人为中心(Human-Centric)的预训练范式,实现了从人类意图到机器人动作的深度对齐:
统一序列化建模:摒弃了传统的独立训练流水线,将人类演示、机器人轨迹与视觉文本映射为统一的多模态Token序列。视觉与文本Token提供环境感知与任务上下文,而统一的“状态/动作”Token则精准捕捉物理交互信号。
混合监督(多目标优化):针对异构数据特性实施差异化优化。对文本数据应用Next-Token Prediction以增强逻辑理解;对离散人类动作采用Masked Token Prediction;而对连续的机器人轨迹,则在统一空间内进行高保真的Action Prediction。
这种融合范式产生的协同效应显而易见:模型既能从人类行为中提取高层级的“交互先验”,又能从机器人实机数据中提炼出高精度的运动控制知识。
△Being-H0.5模型架构和预训练示意图,MoE+MoF结合的构型面向跨本体的模型架构升级
传统的VLA模型(尤其是主流的Flow-matching架构)在处理海量异构数据时,常因模型容量受限产生“泛化退化”,导致模型在面对复杂下游任务时难以兼顾通用性与精确度。
为了打破这一瓶颈,BeingBeyond团队在架构层面进行了深层革新:
Mixture-of-Flow (MoF)架构:团队受MoE(混合专家模型)启发,设计了MoF架构。该架构将“动作专家”解耦:共享专家专注于学习通用的“运动原语”(例如物体在物理世界中的运动规律),而特化专家则通过机器人感知路由,负责特定形态(如灵巧手或四足底盘)的精准执行。这种设计实现了物理共性与硬件特性的完美解耦。
流形保持门控(Manifold-Preserving Gating, MPG):针对实机部署中常见的感知模糊、传感器噪声等挑战,MPG机制充当了模型的“安全阀”,确保模型在不确定性较高时,能自动退回到稳健的物理先验分布中,极大地提升了系统的鲁棒性。
通用异步分块(Universal Async Chunking, UAC):针对不同硬件控制频率不一、通讯延迟各异的痛点,UAC技术使Being-H0.5能够动态适配各种机器人硬件,实现了“一套模型,全谱系平替”的极高兼容性。
△MPG和UAC模块示意图
△实验本体:Being-H0.5在复杂的全尺寸人性机器人,和简单的桌面级机械臂等不同构型本体上均进行了广泛的验证实验海量实验验证:见证“一个模型,多机适配”
跨本体部署与实机挑战:为验证Being-H0.5的极限性能,团队在PND、Unitree-G1、Franka等多种异构机器人(涵盖双足人形、工业臂、协作臂)上进行了大量的实机测试。
得益于海量多源数据的预训练,Being-H0.5实现了“同一份模型权重,多本体部署”的宏大工程目标。在实际演示中,模型操控不同形态的机器人成功完成了如“使用按压式喷壶浇花”等任务——这类涉及精细操控与非刚体交互的操作,是传统的通用夹爪算法无法完成的。
△跨本体真机任务,从上到下依次为:把花放进花瓶(PND),快递扫码(G1),按压式喷壶浇花(franka+inspire),叠方块(D1)以及把任意物体放置于托盘(SO101)
在四组任务上展开的定量评测实验中,Being-H0.5无论是generalist(多本体数据混合训练,难度更大)还是specialist(单一本体数据分开训练,较简单),性能表现都远优于仅能依托单一本体训练的π-0.5模型。
令人惊叹的是,Being-H0.5-generalist的平均得分与针对特定本体优化的specialist模型基本持平。
这意味着,跨本体的联合预训练不仅没有因为数据多样性导致性能“稀释”,反而通过跨形态的知识迁移,让模型在各维度上都达到了顶尖水平,近乎“零损耗泛化”。
△真机实验性能对比:为保障公平,采用“黑盒测试”,即测试员在初始化环境时,待测模型未知,最大程度避免测试员的主观偏见
仿真评测结果对比:在仅使用224x224像素图像(所有模型中分辨率最低),不使用任何辅助模态(比如3D)的情况下,Being-H0.5在LIBERO、RoboCasa 98.9%与54%的成功率,不仅超越了π‑0.5、GR00T等所有已知VLA模型,甚至优于部分借助强化学习与3D模态的方案,展现出强大的SOTA性能和竞争力。
△LIBERO对比结果,Being-H0.5第一实现VLA基座模型98.9的平均成功率
△RoboCasa对比结果,Being-H显著超过pi0.5,GR00T等先进VLA,仅依靠224x224分辨率RGB图像达到SoTA深度开源:打造具身智能的“开源基石”
当前VLA领域的开源实践多存在“断层”现象——仅发布预训练权重,却对关键的训练代码与部署细节讳莫如深。这种“黑盒”现状严重阻碍了社区的复现与创新。
为打破这一壁垒,BeingBeyond团队决定实施全栈式深度开源:研究团队不仅公开预训练与后训练的全部模型参数,更提供完整的训练框架、评估工具,以及一套经过验证、可复现千万级Token训练过程的详细技术配方(Recipe)。
未来,团队还将逐步开放真机部署接口,致力于将Being-H0.5打造成具身智能领域的公共基础设施,赋能全球开发者共建开放生态。
开启跨本体泛化的“大航海时代”
Being-H0.5的问世,为全球具身智能行业提供了一个极具前瞻性的范式:高质量的物理智能不一定非要堆砌昂贵的机器人集群。
它从底层逻辑上回应了行业核心挑战——通过将视角转向人类这一最丰富、最自然的“物理母语”源泉,Being-H0.5从根本上重塑了研发门槛。
这意味着,本体厂商无需投入天文数字去挖掘数据“护城河”,即可在以人为中心(Human-centric learning)的范式下,快速获得跨本体的通用能力。
正如BeingBeyond团队所坚信的:人类本身,就是这个世界最广袤、最深邃的数据富矿。捕捉人类智慧,赋能机器灵魂,这正是Human-centric learning最纯粹的科学魅力。
项目官网:
https://research.beingbeyond.com/being-h05
论文链接:
https://arxiv.org/pdf/2601.12993
GitHub代码开源:
https://github.com/BeingBeyond/Being-H
HuggingFace模型开源:
https://huggingface.co/BeingBeyond/Being-H05-2B