文 |姑苏九歌
编辑 |姑苏九歌
12月1日晚上,不少AI圈的人手机都震了一下,DeepSeek悄悄上线了V3.2版本。
这次不只是发布,还直接把模型扔到了开源社区,谁都能下载部署。
官方放话,这版本推理能力跟GPT-5差不多,成本却低得多。
之前大家看AI大模型,要么是闭源巨头遥遥领先,要么是开源模型勉强追赶,这次DeepSeek突然来这么一下,到底是真有东西还是噱头?
咱们今天就聊聊,从它新搞的DSA技术,到实际干活的本事,再到对整个行业的影响,一个不落。
DSA稀疏注意力机制
传统的AI大模型处理文字,有点像咱们做阅读理解时逐字逐句抠,每个词都要跟其他词比一比关系。
这么干确实仔细,但遇到长文本,比如一本小说或者一份万字报告,电脑就得算到冒烟,还费内存。
DeepSeek这次搞的DSA稀疏注意力机制,思路完全反过来了。
它不看所有词,只挑关键的几个算关系,有点像老师划重点,直接跳过不重要的内容。
年初DeepSeek预告过一个NSA机制,当时说处理长文本像图书馆查书名索引,能大概定位位置。
这次的DSA更狠,官方说像搜索引擎的“闪电索引器”,不光能定位,还能直接把重点句子拽出来。
这可不是换汤不换药,实测数据摆在那儿,128K长度的文本推理,成本降了六成以上,速度快了三倍半,内存占用少了七成。
我特意去翻了翻H800集群的测试报告,之前处理一百万token,预填充阶段要花0.7美元,现在只要0.2美元,解码阶段从2.4美元降到0.8美元。
本来以为速度快了成本就得涨,后来发现DSA机制硬是把这俩都给解决了。
而且这次还搞了双版本,基础版够日常用,Speciale版专门对付复杂任务,算是把不同需求都照顾到了。
光说技术参数可能有点干,咱们看看它实际活儿干得怎么样,特别是那个拿了IMO金牌的Speciale版,解题能力真有那么神?
从解数学题到查天气,工具调用能力真能打?
Speciale版最让人惊掉下巴的,是它在国际数学竞赛上的表现。
IMO2025、CMO2025、ICPCWorldFinals2025、IOI2025,四个顶级赛事全拿了金牌。
ICPC排到人类选手第二名,IOI第十名,这成绩直接超过了GPT-5High。
之前看AI解数学题,要么是简单题秒答,要么是难题卡壳,DeepSeek这次能稳定输出高难度解题过程,确实有点东西。
官方给了道例题,“A比B大三岁,B比C大两岁。
五年后A的年龄刚好是C的两倍”,一般模型可能直接列方程算,但DeepSeek不是,它先算现在的年龄关系,再推五年后,算完还验证了三遍,确保每个步骤都没错。
这种“较真”的劲儿,在AI里还真不多见。
更有意思的是工具调用能力,我试了个日常任务,查北京今天气温,转成华氏度,再看看适不适合户外活动。
别的AI可能直接搜个气温数字填进去,DeepSeek不一样。
它先调用搜索工具查实时温度,接着用数学工具换算单位,完了还调用天气评分工具看舒适度,最后才总结“今天适合户外活动,注意防晒”。
每一步都清清楚楚,就像个有逻辑的助理,而不是只会复制粘贴的机器。
技术厉害,活儿能干,那这对整个AI行业有啥影响?是不是真能让小公司也玩得转大模型?
之前行业里有个不成文的说法,开源模型永远比闭源模型落后8个月。
意思是闭源巨头出了新技术,开源这边得等大半年才能跟上。
DeepSeekV3.2一出来,这话估计得改改了。
现在开源模型不光能追,还能反过来逼着闭源巨头加快更新,这种角色转换,怕是最有体会的就是那些靠闭源模型吃饭的公司了。
AI大模型之前最大的坎就是成本,训练要钱,推理更要钱。
小公司想做个AI工具,光服务器成本就够喝一壶的。
现在DSA机制把推理成本打下来,小团队也能用上高性能模型了。
就像开餐馆,之前只能用小灶台,现在能用大厨房,菜品种类自然就多了。
长文本交互价格下来后,像写小说、分析报告这类高级应用,说不定很快就能走进普通人的手机里。
最明显的变化可能是AI工具要开始取代传统软件了,以前咱们用Word写东西,用Excel算账,以后可能直接跟AI说“写份周报”“算下本月开支”,它直接帮你搞定。
甚至操作系统都会变,以后电脑开机,可能先弹出个AI助手问你今天想干嘛。
这种从“人找工具”到“工具找人”的转变,怕是未来半年就能看到苗头。
说到底,DeepSeekV3.2能让人记住,靠的就是两个硬家伙,DSA稀疏注意力机制和工具调用能力。
一个让它跑得更快还更便宜,一个让它不光会做题,还会实实在在帮人干活。
之前大家觉得GPT-5遥不可及,现在突然发现,开源模型也能摸到这个门槛。
这种变化不光是技术上的进步,更可能让整个AI行业的玩法都变了。
接下来就看,是闭源巨头赶紧反击,还是开源阵营乘胜追击,不管怎样,最后受益的肯定是咱们这些用AI的人。