作者 | Multi-X Team, OPPO AI Center
你拿起手机,对准桌上的一瓶喷雾,随口问:“这个在淘宝多少钱?”传统 AI 助手大概率只能告诉你“这可能是什么商品”,接下来还要你自己打开淘宝、输入关键词、翻结果页、对比价格。X-OmniClaw 想做的更进一步:它先看懂摄像头里的真实物体,再理解你的语音意图,自动打开目标 App,完成搜索、滚动、截图、提取价格和销量,最后把结果整理给你。
这不是一个停在聊天框里的问答助手,而是一个直接运行在真实 Android 手机上的多模态移动 Agent。它把屏幕、摄像头、语音、本地记忆和跨 App 执行放进同一条闭环,让 AI 从“会回答”走向“能把手机里的事做完”。
引言:为什么我们需要手机上的移动智能体?
过去一年,AI Agent 的重心正在从“生成内容”转向“执行任务”。 如今 Openclaw 已率先掀起 PC 端个人助理新热潮,相较之下,手机拥有摄像头、麦克风、触屏、相册、应用生态及丰富个人上下文,更是天然的第一人称计算入口。问题也随之变难:手机任务不是看一张截图就结束,而是要同时理解屏幕里发生了什么、现实世界里有什么、用户刚才说了什么,并在不断变化的 App 界面里持续执行。
已有方案已经证明 Android 跨应用编排具有工程可行性,但不少系统仍偏向云端虚拟环境或自动化流程,难以充分利用用户实体设备上的摄像头、本地数据和个性化上下文。X-OmniClaw 正是为了系统性地解决这些问题而设计的。
X-OmniClaw 的答案是把三件事做成一个系统栈:
看得全:同时接收屏幕、摄像头、语音和外部触发,把碎片化输入整理成可执行意图。
记得住:维护当前任务上下文,也能从本地相册、文件和使用轨迹中沉淀长期个人记忆。
动得稳:用混合界面理解、深度链接、行为克隆等方式,把一句话落到真实 Android 操作上。
图 1:X-OmniClaw 整体系统结构。语音、屏幕和摄像头输入进入端侧智能体循环,智能体再通过技能、工具和设备动作完成实体手机操作,执行经验进一步回流到记忆系统中。
与以云端为中心的手机智能体不同,X-OmniClaw 的核心逻辑驻留在用户本地 Android 设备上。可以把手机看作车辆,X-OmniClaw 是车内负责控制与感知的引擎,云端大语言模型只是高层推理所需的“燃料”。这让系统既能直接操作应用和系统设置,又不必维护额外的云手机身份。
核心模块深度解析
Omni Perception:把屏幕、现实和语音变成同一个任务输入
移动端 Agent 首先要解决“到底该看什么”的问题。用户可能在 App 里点了悬浮按钮,也可能按住语音说话,还可能把摄像头对准一个真实物体。X-OmniClaw 用统一入口接住这些触发源,再将屏幕截图、摄像头画面和语音转写组织到同一条多模态管线里。
图 2:Omni Perception 的多模态入口、多模态感知与场景化意图理解流程。
Omni Memory:让手机不再每次都从零开始
手机任务常常跨多轮、跨页面、跨 App。如果系统只记 得当前截图,很容易切个页面就断线。X-OmniClaw 的记忆分为两层:工作记忆记录当前任务进度、截图证据、语义摘要和执行状态;长期记忆则从本地多模态数据中提炼用户相关信息。
图 3:Omni Memory 的运行时上下文、长期多模态记忆产物与技能 - 工具协同机制。
例如相册不再只是图片文件夹,而可以在设备空闲时被整理成结构化记录:照片里有什么物体、是什么场景、和哪个事件相关。之后用户说“找出鹦鹉主题照片并一键成片”,系统就能先从记忆里检索素材,再把候选图片交给后续自动化流程。
这套设计也把记忆生产和记忆消费拆开:有的技能负责同步、更新、重建记忆,有的技能负责检索、问答和驱动操作。长期记忆写入前经过过滤和脱敏,用户也可以控制相册记忆、用户画像是否参与后续决策。
Omni Action:让手机在执行中持续自进化
理解和记忆之后,最难的是执行。手机 App 的界面非常不稳定:有的页面有完整 XML 控件树,有的全是图片,有的夹着广告、弹窗和 WebView。只靠结构信息会漏,只靠视觉又容易飘。
图 4:Omni Action 在应用生态中的智能体循环与轨迹克隆执行。
X-OmniClaw 采用混合界面理解:结构化信息可靠时优先使用 XML 和无障碍节点;结构信息缺失时,用 OCR、视觉定位和多模态理解补位。每一步操作都遵循“观察 - 推理 - 执行 - 再观察”的循环,直到任务完成或被用户停止。
另一个亮点是行为克隆。X-OmniClaw 可以观察用户的一次真实导航过程,记录页面语义和启动信息,并将其概括为后续可调用的技能卡片,让用户把常用路径沉淀为自定义入口。下次一句“打开美团秒杀”,系统优先尝试 deeplink、intent或任务栈恢复,尽量绕过中间页面,直达目标位置。
演示场景:从相机识物到一句话直达
X-OmniClaw 的演示围绕三条主线展开:生活场景的协同助手、主动式个性化服务,以及行为克隆与轨迹回放。
1. 相机感知执行:看见真实物体并完成电商查询
图 5:相机感知执行、应用直达与结果提取
2. 屏幕替身执行:跟随前台界面完成长链路任务
当用户说“开始做题吧”,系统会把语音和当时的屏幕状态一起理解,而不是孤立地处理一句话。它需要持续读取页面内容、判断当前步骤、点击或输入,并根据反馈调整下一步。这类任务说明了 X-OmniClaw 和普通截图问答的区别:它不是回答一次,而是在一个不断变化的前台界面里持续跟随。
图 6:由屏幕投影多模态上下文驱动的多步执行
3. 记忆驱动的一键成片:把相册变成可执行素材库
旅行结束后,手动挑选主题照片并导入剪映类应用制作短视频通常非常繁琐。X-OmniClaw 可以先在空闲时间把相册内容整理为结构化语义记忆;当用户提出“找出鹦鹉主题照片并一键成片”时,系统检索匹配素材,将候选图片集中到暂存文件夹,再跳转到 CapCut 的一键成片页面并批量选择。这背后串起的是相册检索、文件整理、App 跳转和批量操作。对用户来说,原本要翻很久的素材选择,被压缩成一句自然语言指令。
图 7:基于多模态相册记忆和 CapCut 自动化的一键成片流程
4. 行为克隆与一句话直达:记录一次,下次直达秒杀链接
在许多应用中,有价值的页面入口隐藏在多级路径之后。X-OmniClaw 允许用户先录制一次导航轨迹,将目标页面保存为结构化书签和技能。之后用户只需说“打开美团秒杀”,系统就能匹配技能,并通过 intent、deeplink 或任务栈恢复等方式直达目标页面。高频自动化的本质往往不是完成复杂项目,而是把每天重复点击的路径压缩成一句话。
图 8:通过行为克隆直达美团秒杀页面。
关键技术总结
X-OmniClaw 的意义在于它把移动端智能体需要的几个关键环节放进了同一个工程闭环中。
实现了实体设备上的感知 - 记忆 - 行动闭环:系统可以同时接收屏幕、摄像头和语音输入,并将其转化为 Android 操作,而不是停留在离线理解或远程虚拟环境中。
强化了长期个性化能力:通过工作记忆和长期个人记忆,智能体能够在长任务中保持上下文连续,并把相册、语音、应用上下文等本地多模态数据转化为可检索、可复用的个人知识。
提升了移动应用执行可靠性:混合界面理解降低了复杂界面中的误触风险,行为克隆和轨迹回放则把重复路径压缩成可复用技能,让“录一次、下次一句话直达”成为可能。
兼顾端侧执行与云端推理:X-OmniClaw 将核心感知和执行逻辑保留在本地,仅在高层推理时调用云端大语言模型。这种端云协同思路兼顾了隐私、效率和模型能力。
未来展望
X-OmniClaw 的价值不只是“AI 能点手机屏幕”,而是给出了一个真实手机 Agent 的完整工程样板:多模态感知负责看懂当下,记忆系统负责接住上下文,行动模块负责把意图落实到跨 App 操作。当然,这一路线仍有进一步演进空间。X-OmniClaw 的后续重点将集中在三个方向:第一,引入自进化机制,让系统不断压缩和优化执行轨迹,降低大模型调用成本与响应延迟;第二,推动动态记忆演化,通过语义整合与选择性遗忘保持用户画像的准确性和长期价值;第三,完善端云协同,让日常任务优先在端侧完成,而对开放域复杂推理任务则通过安全网关选择性调用云端模型。
可以预见,随着 X-OmniClaw 这类技术的成熟与开源,我们将迎来一个全新的时代:我们的手机将从一个需要不断操作的“工具”,转变为一个能主动感知、持续学习、精准执行的“数字伙伴”。这不仅是技术的进步,更是人机交互方式的一次深刻变革。