通义全尺寸GUI智能体基座模型MAI-UI开源:原生具备用户交互能力
创始人
2025-12-29 15:17:42

12月29日,通义实验室多模态交互团队近日宣布开源其通用GUI智能体基座模型MAI-UI。该模型旨在通过理解屏幕界面并执行操作,完成跨应用、多步骤的复杂任务,例如查询车票、在通讯群组同步信息、调整会议安排等。

据介绍,MAI-UI具备在指令不明确时主动向用户提问澄清的能力,并支持通过调用结构化工具(如地图搜索、路线规划API)来替代繁琐的界面点击操作,以提高任务执行的成功率与效率。该模型家族包含2B、8B等不同参数规模的版本,其中2B与8B模型已开源。

根据团队公布的评测数据,MAI-UI在ScreenSpot-Pro、AndroidWorld等多个GUI理解与任务执行基准测试中取得了当前领先的成绩。该模型适用于手机、电脑等不同操作系统的界面交互场景。

【来源:凤凰网科技】

相关内容

热门资讯

最高法:完善AI生成等方面裁判... 5月27日,国务院新闻办公室举行“开局起步‘十五五’”系列主题新闻发布会,介绍推进全面依法治国有关情...
金蝶AI峰会2026重庆站举行 5月26日,金蝶AI峰会2026重庆站举行,峰会立足成渝地区双城经济圈产业优势,聚焦西部制造业数字化...
“高考期间AI工具将禁用”?多... 日前,“高考期间AI工具将禁用”的话题在网络流传。 红星新闻报道,5月26日,记者联系了多家AI平台...
AI接过“章鱼哥”衣钵?六款A... 2022年11月29日,卡塔尔世界杯小组赛最后一轮,美国队1:0战胜伊朗队,惊险晋级淘汰赛。 一天后...
AI革命下一站——物理AI有哪... 物理AI正从概念走向产业现实。浙商证券在最新发布的行业深度报告中指出,继感知AI、生成式AI、Age...