2025年下半年以来,随着基础模型,尤其是多模态能力的进一步提升,语音交互逐渐成为新风口,借助于此,各种AI眼镜、耳机、录音笔等产硬件品层出不穷,同时,最直接的AI语音输入法也掀起一波热潮,国内如搜狗、讯飞等纷纷升级AI语音输入法,字节旗下豆包、Typeless、闪电说等公司也迅速推出类似产品;海外如Wisper Flow更是获得8100万美元融资、估值达到7亿美元。
无论是AI硬件还是AI语音输入法,这些产品争相亮相的趋势都表明,科技公司们正在争夺离用户最近的上下文入口,以期打造出最懂用户的AI产品,进而构建起更深的壁垒。
1月27日,腾讯搜狗输入法正式宣布全面AI化,升级发布20.0 AI大版本,全面升级AI语音、AI翻译、AI打字三大模型。基于自研AI语音大模型,AI语音输入更快速、准确;AI翻译接入了腾讯混元翻译模型,支持30多种语言输入即译;自研AI打字大模也全面升级,全场景下满足用户对打字准确度的需求。
同时,搜狗宣布,其AI用户规模破亿,日均语音使用次数近20亿,稳居输入法行业第一。
此前,腾讯搜狗输入法已先后升级推出了AI搜索、AI帮写、AI合成表情、图片文字等功能,其中,AI表情混元图搜日请求量已达数亿次。
作为本次升级的核心亮点之一的AI语音输入,基于腾讯混元研发的AI语音大模型,实现了语音识别流畅性提升40%,整体准确率提升至98%,方言识别准确率提升30%。尤其在“轻声场景”下表现卓越,在低于20分贝的环境下,识别准确率仍能保持在行业领先的97%。
现场,腾讯搜狗输入法大模型产品负责人柴宝全表示,输入法是非常高频的入口,也是最基础的人机交互工具,“输入法其实是我们向机器表达自身意志和想法时的触手,这个触手会随着硬件、技术的生态变化而做出不同调整,即便硬件不变,随着用户需求的变化,也会逐渐进化。”
随着AI技术的快速演进,语音输入法已然成为AI时代的重要入口之一,大部分大模型产品如元宝、豆包、千问,都在产品中内置了语音输入的方式,此时,需要额外下载的输入法产品就面临着会否逐渐被AI时代所抛弃的担忧。
柴宝全表示,语音是重要的输入方式,行业会继续增长,但是打字也不该是被忽略的内容,“实际上我们在工作生活当中,发现打字这件事情至少在硬件完全颠覆之前,其实仍然是一个非常重要的东西。”
腾讯搜狗输入法AI打字产品负责人沈祥金也表示,现在仍有很多老年人没办法很好地使用语音输入,或是固定群体使用的专业词汇没办法用语音输入,就需要通过手写或打字来呈现。
从AI语音输入法的迭代升级,到各类AI硬件的密集亮相,科技大厂的争夺焦点早已超越单一产品功能,落脚于用户上下文入口的掌控权。搜狗输入法的全面AI化,既印证了语音交互的爆发潜力,也揭示了一个核心逻辑:高频刚需的基础工具,才是AI生态落地的最佳载体。
当AI大模型逐渐成为人们日常生活标配,输入法的竞争终将回归“懂用户”的本质,离用户表达最近的地方,或许才是AI时代最稳固的护城河。