新智元报道
编辑:犀牛
【新智元导读】 除夕当天,阿里开源全新一代大模型千问Qwen3.5-Plus,397B总参数仅激活17B,性能媲美Gemini 3 Pro,API价格仅为其1/18。千问3.5为原生多模态,推理吞吐量最高提升19倍,在推理、编程、Agent等多项评测中超越GPT-5.2和Claude 4.5。
新年除夕夜,春晚还没开场,阿里先把一道「硬菜」端上桌:全新一代大模型千问 Qwen3.5-Plus正式发布。
这不是一次常规更新,而是一次彻头彻尾的代际跃迁:性能正面硬刚谷歌Gemini 3 Pro和OpenAI GPT-5.2,价格却只有Gemini 3 Pro的1/18。
总参数3970亿,激活仅170亿,以不到40%的参数量打赢了自家万亿参数的Qwen3-Max。
以小胜大
17B激活参数掀翻万亿牌桌
先说最炸裂的数字。
Qwen3.5-Plus总参数3970亿,但每次推理只激活170亿参数。
在MMLU-Pro知识推理评测中拿下87.8分,超过GPT-5.2;在博士级科学推理评测GPQA中斩获88.4分,比以逻辑严谨著称的Claude 4.5还高;在指令遵循IFBench评测中以76.5分刷新所有模型的历史纪录;在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp等基准中,表现均超越Gemini 3 Pro和GPT-5.2。
图说:阿里开源千问Qwen3.5-Plus,性能媲美Gemini 3 Pro
更让人窒息的是效率指标。
跟前代万亿参数的Qwen3-Max比,Qwen3.5-Plus的部署显存占用直降60%,这意味着现在硬件门槛大幅降低。
推理吞吐量方面,在常用的32K上下文场景中提升8.6倍,在256K超长上下文情况下,最大提升达到惊人的19倍。
图说:千问3.5推理效率大幅提升,最大吞吐量提升至19倍
然后是价格。
Qwen3.5-Plus的API调用价格——每百万Token低至0.8元人民币。
0.8元什么概念?还不到一瓶矿泉水的钱。
而同级别的Gemini 3 Pro,价格是它的18倍。
这是第一次,「最强」和「最便宜」出现在了同一个模型上。
Transformer架构的一次重大突破
千问3.5为什么能以小胜大?
答案藏在它对Transformer经典架构的那次大刀阔斧的创新里。
过去两年,大模型行业信奉一条朴素的信仰——「大力出奇迹」。
参数从千亿狂飙到万亿,性能确实在涨,但代价也肉眼可见:训练需要超大规模算力集群,推理成本随参数规模同步飙升,部署门槛高得让中小企业望而却步。
说白了,这条路越走越窄,只有少数巨头才玩得起。
千问3.5选择换一条路走。
它不再单纯堆参数,而是在架构效率上做到极致。
千问团队自主研发了一套门控技术,这项成果曾拿下2025年NeurIPS最佳论文——这可是全球AI领域含金量最高的奖项之一。
如今,这项前沿技术已经被「装」进了千问3.5全新的混合架构里。
简单说,团队把线性注意力机制和稀疏混合专家(MoE)架构融合在一起,让模型虽然坐拥397B总参数,每次推理却只需要激活17B,不到5%的参数就能调动全局知识。
与此同时,千问3.5还引入了多Token预测、训练稳定性优化等一系列技术,最终做到了:性能追平甚至超越自家万亿参数的Qwen3-Max,推理效率却天差地别——在常用的32K上下文场景中,吞吐量提升8.6倍;切换到256K超长上下文,吞吐量最高飙升至19倍。
同样的活儿,干得又快又省。
这就是千问3.5能把API价格打到0.8元的技术底气。
睁开眼睛:原生多模态
如果说架构革新让千问3.5拥有了一副高效的骨骼,那原生多模态能力就是赋予它执行力的灵魂。
千问3.5从预训练的第一天起,就在文本与视觉混合Token数据上进行联合学习,模型在统一的参数空间内同时消化文字和图像信息,不存在中间翻译带来的信息损耗。
通俗地讲,这个大模型从出生那天起就睁着眼睛看世界,而不是先学会说话再学看图。
与此同时,训练数据也进一步扩充,新增了大量中英文、多语言、STEM和推理数据。
这让千问3.5不仅拥有了整合复杂世界知识的能力,更获得了对三维物理空间的深刻直觉。
视频理解方面,千问3.5支持长达2小时的超长视频直接输入,配合1M Token原生上下文,轻松应对长视频的精准分析和一键摘要。
想象一下,一个AI系统能自主巡检数小时的工厂录像,精准指出每一处违规操作——这就是千问3.5正在开启的可能性。
更值得一提的是视觉与代码能力的原生融合。
过去要开发一个界面,得经历「原型设计→修改成稿→转译代码」一整套流程。
千问3.5能直接把手绘界面草图转化为高质量前端代码,还能通过一张UI截图定位并修复界面问题。
视觉编程,从PPT上的概念真正变成了开发者手里的生产力工具。
从能看到能干:Agent能力的全面爆发
原生多模态带来的不仅仅是「看懂图片」这么简单,它直接打通了从感知到决策再到执行的完整链路。
在移动端支持更多主流APP与指令操作,在PC端可以处理更复杂的多步骤操作,如跨应用数据整理、自动化流程执行。这不是纸上谈兵的「我能理解」,而是实打实的「我能帮你干」。
在Agent训练方面,千问团队专门构建了一个可扩展的异步强化学习框架,覆盖纯文本、多模态和多轮对话场景,端到端训练效率提升3到5倍,插件式智能体支持扩展至百万级规模。
说到商业落地,千问App在1月15日发布了全球首个消费级AI购物Agent。
春节期间,这个AI购物Agent在6天内帮用户完成了1.2亿笔订单,在全球首次实现了大规模真实世界任务执行和商业化验证。
Agent能力大幅增强的千问3.5接入后,千问APP在工作和生活中「帮人办事」的想象空间将被进一步打开。
登顶开源王座
把视野再拉远一些,千问3.5-Plus的发布意义远不止一个模型那么简单。
先看开源生态。
自2023年开源以来,阿里已累计开源超过400个千问模型,覆盖全尺寸、全模态,全球下载量突破10亿次,单月下载量是DeepSeek、Meta、OpenAI、智谱、Kimi、MiniMax等第2名到第8名的总和。
开发者基于千问开发的衍生模型超过20万个,构成了全球最厚实、最活跃的开源底座。
千问不再仅仅是一个模型产品,而是一个全球开发者共同维护、共同进化的智能基础设施。
再看语言。
千问3.5将支持语言扩展至201种,词表从15万扩容至25万,小语种编码效率最高提升60%。
从非洲到南亚,从少数民族语言到小国方言,千问正在用技术普惠的方式在全球新兴市场预埋生态种子。
最后看训练底座。
千问3.5的原生多模态训练在阿里云AI基础设施上高效完成,通过精巧的FP8/FP32精度应用策略,激活内存减少约50%,训练提速10%,混合数据训练吞吐量几近100%持平纯文本基座模型。
这意味着阿里一边把模型能力通过开源释放出来,一边用自研芯片和云基础设施把部署和推理成本持续往下压。
目前,千问APP和PC端已第一时间接入Qwen3.5-Plus模型。
开发者可在魔搭社区和HuggingFace下载新模型,或通过阿里云百炼获取API服务。
据悉,千问3.5只是阿里春节档的第一弹——接下来几天还将继续开源多款不同尺寸、不同功能的千问3.5系列模型,旗舰版Qwen3.5-Max也将在年后压轴登场。
秒追ASI