智元机器人9月23日宣布开源GO-1通用具身基座大模型,宣称是全球首个采用Vision-Language-Latent-Action (ViLLA)架构的具身智能模型,并向全球开发者免费开放。该模型基于AgiBot G1机器人数据预训练,能弥合图像-文本输入与机器人动作执行之间的语义鸿沟。
据官方介绍,GO-1采用三层协同设计:VLM多模态理解层基于InternVL-2B构建,可处理多视角视觉图片、力觉信号等;Latent Planner隐式规划器预测隐式动作标记;Action Expert动作专家基于扩散模型生成连续动作序列。模型已在松灵机器人、方舟机器人等不同本体上验证。
智元机器人同步推出Genie Studio一站式开发平台,提供数据采集、模型训练、仿真评测等全流程服务。官网显示,平台支持真机一键编译部署,但目前仅限商业合作申请。
虽然官方宣称GO-1在Genie Sim和Libero仿真平台取得领先性能,但具体测试数据尚未完全公开。模型开源地址已在GitHub发布,包含预训练模型和完整文档。