阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写
创始人
2025-09-24 15:43:35

9月24日,2025云栖大会在杭州举行。当日,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。在36个音视频基准测试中,Qwen3-Omni系列模型有22项达到SOTA水平,其中32项取得开源模型最佳效果,语音识别、音频理解与语音对话能力可比肩Gemini2.5-Pro。

上证报中国证券网讯(记者 杨翔菲)9月24日,2025云栖大会在杭州举行。当日,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。在36个音视频基准测试中,Qwen3-Omni系列模型有22项达到SOTA水平,其中32项取得开源模型最佳效果,语音识别、音频理解与语音对话能力可比肩Gemini2.5-Pro。

作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界,Qwen3-Omni一开始就加入了“听”“说”“写”多模态混合训练。在预训练过程中,Qwen3-Omni采用混合单模态和跨模态数据。Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果。

Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms;支持的语言更多,包括19种语言音频输入、10种语言输出。

作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较传统的录音转文字软件,Qwen3-Omni能够处理长达30分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容。

目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner。值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白。

相关内容

热门资讯

开源基础设施危机:OpenSS... 开源安全基金会(OpenSSF)已经受够了充当全球软件供应链无偿管理员的角色。 周二,多个重量级开源...
9月24日蓝黛科技涨7.32%... 证券之星消息,9月24日蓝黛科技(002765)涨7.32%,收盘报14.66元,换手率12.08%...
原创 福... 最近,福建舰的弹射技术屡屡成为焦点,尤其是在9月22日成功弹射歼-35舰载机之后,更是激起了巨大的波...
银发族逛北京省心选!北京旅行社... 对于银发族来说,逛北京是一场承载着岁月记忆与文化情怀的旅行。但旅行中的吃住行游等诸多安排,却常常让人...