通义全尺寸GUI智能体基座模型MAI-UI开源:原生具备用户交互能力
创始人
2025-12-29 15:17:42

12月29日,通义实验室多模态交互团队近日宣布开源其通用GUI智能体基座模型MAI-UI。该模型旨在通过理解屏幕界面并执行操作,完成跨应用、多步骤的复杂任务,例如查询车票、在通讯群组同步信息、调整会议安排等。

据介绍,MAI-UI具备在指令不明确时主动向用户提问澄清的能力,并支持通过调用结构化工具(如地图搜索、路线规划API)来替代繁琐的界面点击操作,以提高任务执行的成功率与效率。该模型家族包含2B、8B等不同参数规模的版本,其中2B与8B模型已开源。

根据团队公布的评测数据,MAI-UI在ScreenSpot-Pro、AndroidWorld等多个GUI理解与任务执行基准测试中取得了当前领先的成绩。该模型适用于手机、电脑等不同操作系统的界面交互场景。

【来源:凤凰网科技】

相关内容

热门资讯

反转!“开会发言”视频竟是AI... 近日,广西横州市有自媒体账号使用人工智能技术,制作虚假政务信息发布场景,传播不实信息。3月18日,南...
AI收入破亿、经调整净利转正!... 正如德国哲学家尼采的名言:“那些杀不死你的,只会让你更强大。”在AI时代,尤其是近期“龙虾”概念的兴...
全球AI需求爆发!百度智能云宣... 快科技3月18日消息,今日,百度智能云发布AI算力、存储等产品调价公告。 官方表示,受全球人工智能应...
腾讯AI战略全面提速! 3月18日,腾讯控股发布2025年第四季度及全年财报。2025年四季度公司营收1943.7亿元,同比...
开源证券:白酒把握两条主线,兼... 瑞财经 严明会 近日,开源证券指出,白酒可把握两条主线,兼顾长期价值与阶段性机会。 一是配置白酒龙头...