原创 千问「办事」,AI 从聊天走向真实世界
创始人
2026-01-16 13:18:27

1 月 15 日,千问 App 发布会现场,千问 C 端事业群总裁吴嘉演示了一个场景:他对着千问说了一句话,几秒钟后,千问调用淘宝闪购完成下单,通过内置的支付宝 AI 付功能一键支付。不久后,外卖骑手将 40 杯奶茶送达现场。真实的商品、真实的支付、真实的配送,整个过程在千问 App 内一气呵成

过去两年,AI 困在屏幕里。它能写万字长文,能生成精美图片,能修改复杂代码。但面对一杯奶茶,它只能给建议,无法完成交易。这一天,千问完成了从「数字助手」到「真实世界助手」的跨越

为什么其他 AI 应用做不到?

困在屏幕里:三重结构性障碍

AI 应用无法触达真实世界,背后是三重结构性障碍。

第一重障碍是意图理解的模糊性。真实世界的需求往往是模糊的。一个典型场景:用户想为家人购买扫地机器人,提出了预算区间和家中养猫的信息。这个简单描述背后,隐藏着防毛发缠绕、高温杀菌、操作简单适合家里老人等一系列隐含需求。传统 AI 应用无法精准识别这些需求,更多还是停留在字面理解与通用建议。

再看另一个场景。用户计划去郊外徒步,询问天气情况并希望获得装备清单。传统 AI 应用可以查天气,可以列清单,但它无法理解海拔、温差、路线难度这些因素如何影响装备选择,因此它给出的是还是通用建议,无法根据真实需求做出精准判断。

第二重障碍是执行的断裂性。真实世界需要闭环,比如消费者从消费决策到商品推荐,从下单到支付到配送,每个环节都要打通。但传统 AI 应用更像是一座「孤岛」,只能给建议,无法完成行动。

举一个例子,当用户听完 AI 的建议后,可能要打开电商平台搜索商品,对比价格和评价,加入购物车,跳转到支付工具完成支付。建议和行动之间,有巨大的鸿沟。AI 只是起点,执行要靠用户自己,不但没有节省时间,反而浪费了时间

第三重障碍是任务的复杂性。真实世界的任务往往是多步骤协同。春节出游,用户需要先查询目的地天气,然后订机票,订酒店,规划当地行程,预定年夜饭餐厅,甚至可能需要打电话确认预定。这是跨应用、跨场景的复杂任务。传统 AI 应用往往停留在一个对话窗口的上下文情境里,它可以改一段代码、写一篇文案、生成一张图片,但要面对需要调用多个应用、协同多个步骤的复杂任务,往往力不从心。

这三重障碍,使得很多 AI 应用停留在「聊天」阶段,而要进入真实世界,需要技术和生态的双重突破

阿里破局:双重优势打开真实世界

千问的突破,源于 Qwen 大模型的技术能力与阿里生态的深度整合。吴嘉在发布会上强调,这两者的结合是千问的独特优势。

先看如何理解真实需求。真实世界充满噪音,软文、广告、种草营销无处不在。如何训练模型的理解和分辨能力?千问一方面依靠模型内置的丰富世界知识,还利用了阿里巴巴积累的真实交易数据和服务数据来增强模型。

互联网环境下,营销信息繁杂、噪音巨大。千问能基于真实交易数据和用户反馈,给出客观推荐。在扫地机器人的案例中,千问识别出用户家中养猫的信息,推理出防缠绕、杀菌等隐含需求,并在推荐理由中标注了高温杀菌和处理宠物毛发的能力。用户点击弹出的商品卡片,即可跳转至淘宝下单购买。

而在徒步的场景中,千问分析了当地未来几天的天气趋势,根据海拔、温差和路线难度,推荐了冲锋衣、登山鞋、保温水壶等装备的淘宝商品卡片,并附上选购建议和注意事项。这背后,是千问对淘宝商品信息、真实交易中的用户反馈的深度整合。

上述场景里,如果 AI 应用仅仅依赖爬虫和公开数据,很容易被营销内容或 GEO(面向大模型的内容优化)所影响,AI 应用很难判断哪些推荐是客观的,哪些是软文包装,千问有效避免了这些问题。

再看如何完成执行闭环。千问与淘宝闪购、支付宝原生 AI 支付能力实现了系统级打通。用户通过语音指令即可完成从推荐到配送的全流程:千问调用淘宝闪购,精准定位、推荐合适商家、生成订单,并通过内置的支付宝 AI 付功能一键付款。整个过程在端内完成,无需任何跳转。

这是深度整合的结果。在美国,如果 OpenAI 要做支付,需要接入 Stripe 或 Paypal,逐个谈合作。而在中国,千问调用的是阿里自家能力,是集团内部协同。这种系统级打通,其他 AI 公司很难做到。

最后看如何协同复杂任务。这背后是技术和生态的双重支撑。

技术层面,千问采用了全新的通用 Agent 体系,基于 MCP 和 A2A 协议构建。主 Agent 基于 Qwen 大模型拆解和规划任务,多个具有反思能力的子 Agent 在其领域完全决策执行,实现了高效的分层规划与领域专家自治。这种架构大幅提升了跨领域、长链路的复杂任务执行效率和准确率。

同时,千问重构了底层工具链。对搜索引擎、浏览器、代码锚点等工具重点打磨,使得性能更好、产出结果更稳定。在涉及可视化绘图、编写小程序或处理复杂表格时,Agent 会通过 Code RAG 技术检索并对齐经过验证的成熟代码范式,确保产出结果的工程级稳定性。

生态层面,千问接入了淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务。这些是阿里 20 年积累的商业基础设施,现在被原子化调用。在出游场景中,千问可以调用飞猪完成机票酒店预定,调用高德完成行程规划和年夜饭预定,甚至直接帮用户打电话订餐厅。

此次升级还包括「任务助理」功能的定向邀测。这个功能展示了千问在复杂任务处理上的能力。在处理报表整理任务时,用户可以上传近百张格式不一的电子发票,千问会自动识别关键信息,提取购买方、开票日期和金额,生成结构清晰的表格。在制作汇报材料时,用户上传数据截图,千问就能输出包含趋势图、核心结论和建议的完整报告。

为了应对大模型可能存在的幻觉问题,千问引入了「双重核查」机制,支持用户利用第三方 agent 对关键数据或结论进行复核。在文件处理能力上,Web 端最多可同时处理 100 个文件,App 端同时处理 10 个文件,平均在 8 到 10 分钟内能完成任务。

这是中美 AI 路径的根本差异。OpenAI 是通用智能寻找场景,通过 GPT Store 构建开放生态。阿里是场景优势叠加 AI,通过集团协同深度整合。进入真实世界,需要技术 × 生态的乘法效应。前者只有技术,后者两者兼具。

进入真实世界:AI 竞争的新阶段

千问迈出的这一步,可能是 AI 走出数字世界并接管物理世界的一大步。这意味着什么?

首先是 AI 竞争标准的改变。过去两年,行业比拼 benchmark 跑分、参数规模。这是数字世界的能力较量。现在,标准变成了真实任务完成能力。能否点外卖、能否订机票、能否完成更复杂的现实世界的任务规划,这是物理世界的有用性检验。

这个标准对后来者设置了双重门槛。既要有技术能力,又要有生态整合能力。技术能力可以通过投入研发追赶,但生态整合需要长期积累。很多互联网公司要么有社交生态,要么押注内容生态,要么强调电商生态,但缺少阿里这样完整的商业基础设施整合。

其次是重新开辟了全新的消费入口。过去是搜索框:用户有明确需求,输入关键词,平台返回结果。现在是对话框:用户表达模糊需求,AI 理解、推荐、完成交易。从搜索到对话到办事,这是完整的闭环,重新打开了电商平台、生活服务平台新的想象力。

最后是 AI 商业化路径的分化。数字世界的路径是 GPT Store:开放生态,鼓励第三方开发者构建应用。真实世界的路径是深度整合:系统级打通,集团协同。前者适合数字内容创作、工具开发,后者适合真实世界的交易和服务。

这一系列分化展示了一个规律:谁有场景、谁有数据、谁能整合,谁就能进入真实世界。深度整合的难度远高于开放生态。它需要支付体系、物流体系、商家网络、服务网络的全面配合。这些能力,需要十几年甚至二十年的积累。阿里有这个基础,其他科技公司很难在短期内复制。

不过也需要看到一定的不确定性。AI 工具展示了自主进化能力,但进入真实世界后,试错成本更高。在数字世界,生成一段错误代码,用户可以重来。在真实世界,下错一个订单,产生的是真实的损失。Agent 自主进化的边界在哪里?需要建立什么样的安全机制?这些问题,需要时间回答。

但不管怎样,2026 年的 AI 应用之争,已经从「谁更聪明」变成「谁更有用」,从数字世界延伸到真实世界。千问此次上线超 400 项 AI 办事功能,完成了这个转变的第一步。正如吴嘉所说:「AI 办事时代才刚刚开始,一些能力还在探索。」

这个转变,可能比我们想象的更快。

相关内容

热门资讯

谷歌发布AI开放翻译模型 Tr... AIPress.com.cn报道 1月16日,谷歌正式发布了 TranslateGemma,这是一套...
新部落游乐设备:坚守环保理念,... 在绿色发展理念深入人心的当下,环保成为儿童游乐行业的重要发展趋势。家长越来越关注游乐设备的环保性,采...
权威榜单揭晓,口碑领航:深度解... 权威榜单揭晓,口碑领航:深度解析山西花木兰假期旅行社旅行社口碑的冠军之道 引言:从榜单冠军看行业标杆...
一个人旅游超爽!适合一个人散心... 导语 一个人的旅行,说走就走,随心所欲,不用迁就任何人,真的很爽!小编帮大家整理了4个适合一个人散心...
鄂尔多斯必去的十个景点 鄂尔多斯,这座位于内蒙古自治区的城市,犹如一颗璀璨的明珠,散发着独特的魅力。它拥有广袤无垠的草原、壮...