上海大模型发力!超越Grok,阶跃星辰开源语音模型登顶权威评测榜单
创始人
2026-01-15 16:46:58

新民晚报记者今天(1月15日)从上海大模型创业公司阶跃星辰获悉:全球知名权威大模型评测榜单Artificial Analysis Speech Reasoning更新,阶跃星辰原生音频推理模型Step-Audio-R1.1登顶榜首,以96.4%准确率,超越Grok、Gemini、GPT-Realtime等主流一线模型,刷新历史最好成绩。目前,阶跃星辰已将这款模型开源,开发者可以下载体验。

阶跃星辰原生音频推理模型Step-Audio-R1.1登顶Artificial Analysis Speech Reasoning榜首

据了解,该榜单是目前业界评估“原生语音模型”(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。

根据榜单评测,在性能与速度的综合权衡上,Step-Audio-R1.1全面“碾压”同类语音模型。

2025年11月,阶跃星辰发布了全球首个开源原生音频推理模型Step-Audio-R1,可以在不增加额外时延的情况下,端到端理解语音内容,并能够“像人类一样听到对话即可思考”。这次发布的Step-Audio-R1.1模型,是Step-Audio-R1的升级版,兼顾更强实时对话和复杂语音推理能力。完整的实时语音API将在2月上线,目前开放的chat模式已搭载Step-Audio-R1.1核心,支持边想边说的流式推理。

和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。基于推理能力,Step-Audio-R1.1不仅能准确识别声音,还可以捕捉到声音背后的情绪和心理状态、言外之意,并能基于环境音推导对物理世界的理解。比如当听到最近爆火网络的“海豹舞”音频时,模型不仅能识别出韩语歌词,更判断出这是典型语言学习或发音练习的音频,而非自然对话。

一种行业共识是,语音是终端场景下最主流的交互方式。自2025年发力“AI+终端”战略,阶跃星辰相继发布了业内首个产品级的开源语音交互模型Step-Audio、端到端语音模型Step-Audio 2系列、音频编辑模型Step-Audio-EditX、全球首个开源原生音频推理模型Step Audio R1。

相关内容

热门资讯

去慕田峪长城最快的交通方式是什... 你是否曾站在北京的街头,望着地图上那片蜿蜒的长城轮廓,想去体验“慕田峪独秀”的绝美风景?但一想到从市...
(走进中国乡村)大圣信俗牵两岸... 中新社 福建顺昌1月14日电 题:大圣信俗牵两岸 闽北古村焕新颜 中新社 记者 张丽君 地处武夷山东...
巴菲特警告!AI堪比“数字核武... 刚刚卸任伯克希尔·哈撒韦首席执行官的“股神”沃伦·巴菲特再抛重磅言论。 当地时间1月14日,巴菲特在...