你想要一辆省钱的经济型轿车,还是一辆性能惊人的超级跑车?很多人会说:"我两个都想要。"而STEP3-VL-10B的出现,让我们看到了"鱼和熊掌可以兼得"的可能性。
2026年1月14日,阶跃星辰(StepFun)研究团队发布技术报告,介绍多模态模型STEP3-VL-10B。模型只有100亿参数,通过创新的训练策略和并行协调推理方法,在数学推理等多项测试中达到甚至超越了体量是它10到20倍的大型模型表现。模型已在modelscope和huggingface开源。
为什么"小而美"如此困难?
在深入了解这个研究之前,我们需要先理解一个背景问题:为什么让一个小型AI模型达到大型模型的性能如此困难?
想象你正在准备一场厨艺比赛。大型餐厅可以雇佣一百位厨师,每人负责一道菜的一个步骤,流水线作业,高效且专业。而一家小餐馆可能只有一位厨师,需要从切菜到装盘全部自己完成。传统观点认为,在同等时间内,小餐馆永远无法达到大型餐厅的产出质量,毕竟,专业分工的优势是显而易见的。
在AI领域,这种"厨师数量"对应的就是模型的参数量。参数越多,模型能够"记住"的知识就越多,处理复杂问题的能力也越强。这就是为什么像GPT-5.2、Gemini-3-Pro这样的顶级模型都是"巨无霸",它们拥有数千亿甚至更多的参数。
但问题来了:这些巨型模型需要消耗惊人的计算资源。运行它们需要大量高端GPU,耗电量堪比一个小型工厂,成本更是高得让普通研究机构望而却步。这就像让每个家庭都配备一支专业交响乐团来演奏背景音乐,技术上可行,但经济上完全不现实。
阶跃星辰的研究团队面临的挑战就是:能不能训练出一位"全能厨师",让他一个人就能做出媲美百人团队的菜品?答案是肯定的,但需要非常聪明的训练方法。
打造"超级厨师"的秘方
STEP3-VL-10B之所以能够"以小博大",核心在于两个创新策略。如果我们继续用厨艺比赛的比喻,这两个策略可以理解为:第一,让厨师从一开始就用真正的食材练习,而不是先看菜谱再下厨;第二,在比赛中给厨师更多时间思考,并且让他能够从多个角度审视自己的作品。
先说第一个策略,"统一的全解冻预训练"。传统的多模态AI训练方法有点像分阶段教学:先教你认识食材图片,再教你阅读菜谱文字,最后才教你把两者结合起来。这种方法的问题在于,不同阶段学到的知识可能无法很好地融合,就像一个厨师分别学了中餐和西餐,但从未尝试过中西合璧。
STEP3-VL-10B采用了一种更加激进的方法。研究团队准备了一个包含1.2万亿个"token"的多模态数据集,这里的"token"可以简单理解为AI学习的最小信息单位,相当于厨师学习时接触到的每一个食材、每一个烹饪动作。关键的创新在于,他们让模型从一开始就同时学习视觉和语言,而且所有部件都是"解冻"的,也就是说可以被训练调整。
强化学习:比赛前的魔鬼训练
如果说预训练是基础功训练,那么接下来的"后训练"阶段就是比赛前的强化特训。这个阶段分为两步:先是"监督微调"(SFT),然后是"强化学习"(RL)。
监督微调阶段可以理解为让厨师按照评委提供的标准答案反复练习。研究团队收集了数百万道"考题",各种需要推理和感知能力的问题,然后用更强大的AI生成"标准答案",让STEP3-VL-10B向这些答案学习。有趣的是,他们采用了两阶段策略:第一阶段主要学习纯文字推理,比例是文字内容占90%,图像内容占10%;第二阶段则平衡到各占一半。这就像先让厨师掌握基本烹饪逻辑,再让他将这些逻辑应用到各种食材上。
但真正让STEP3-VL-10B脱颖而出的是强化学习阶段。这个阶段持续了超过1000轮迭代,采用的核心方法叫做PPO(近端策略优化)。用大白话说,这就是让AI在做题的过程中根据对错获得奖励或惩罚,然后调整自己的行为,很像训练宠物狗的过程。
研究团队设计了一套精妙的奖励系统。对于有明确答案的问题(比如数学题),他们使用"可验证奖励":答对了加分,答错了不加分,简单粗暴但有效。对于开放性问题(比如写一篇文章),他们则使用"生成式奖励模型":让另一个AI来评判答案的质量,同时还有各种"行为规范"来防止模型耍小聪明,比如惩罚语言混杂、捏造引用等不良行为。
这个奖励系统特别重视一件事:不仅要看最终答案对不对,还要看推理过程是否合理。这就像厨艺比赛中,评委不仅品尝最终菜品,还会观察整个烹饪过程,即使端上来的菜味道不错,如果发现厨师是用了违规手段(比如偷偷使用成品酱料),也会扣分。
考试时的"思考时间":顺序推理与并行协调推理
现在我们来到了这项研究最有趣的部分:测试时计算的扩展,也就是如何让模型在"考试"时表现得更好。
传统的AI测试就像闭卷考试:给你题目,立刻写答案,没有思考时间。但STEP3-VL-10B引入了"思考时间"的概念,这在技术上叫做顺序推理SeRe(Sequential Reasoning)。在这种模式下,模型在给出最终答案之前,会先生成一段"思考过程",用特殊标签包裹起来。这就像让学生在答题纸上写下解题步骤,通过外显化思考过程,模型能够做出更好的推理。
但研究团队并没有止步于此。他们还引入了一种更强大的方法,叫做并行协同推理(PaCoRe)。
想象你要解决一道特别难的数学题。顺序推理就像你一个人坐在书桌前,从头到尾一步步推导。并行协调推理则像是召集了一个学习小组:同一道题,16个同学各自独立思考,然后把所有人的思路汇总到一起,由你来综合分析,找出最可能正确的答案。每个同学可能从不同角度切入问题,有人可能犯错,但当你看到多数人都指向同一个答案时,你就更有信心了。
在技术实现上,PaCoRe的工作流程是这样的:首先,让模型对同一个问题生成16个独立的答案(这就是"并行"的含义);然后,把这16个答案作为"参考材料"反馈给模型,让它综合考虑后给出最终答案(这就是"协调"的含义)。这种方法特别适合那些需要仔细观察图像细节的任务,因为不同的"思考路径"可能会注意到图像的不同方面。
实验结果显示,PaCoRe模式下的STEP3-VL-10B在多项测试中都有显著提升。比如在MathVision数学视觉测试中,成绩从70.81%提升到了75.95%;在需要精确计数的CountQA测试中,从33.69%提升到了38.29%。这种提升尤其明显地体现在需要"高召回率"的任务上,也就是那些需要不遗漏任何细节的任务。
令人瞩目的成绩单
首先来看与同级别选手的比较。在10B参数级别的模型中,STEP3-VL-10B几乎在所有测试中都名列前茅。在综合理解能力测试MMBench上,它达到了92.05%的英文成绩和91.55%的中文成绩,明显领先于其他同级别模型。在需要复杂推理的MathVision测试中,它的70.81%成绩比最接近的竞争对手高出10个百分点以上。
更令人印象深刻的是与"大块头"们的对比。STEP3-VL-10B与那些参数量是它10到20倍的模型进行了正面较量,比如拥有1060亿参数的GLM-4.6V和2350亿参数的Qwen3-VL-Thinking。在多个测试中,这个"小家伙"不仅没有落后,甚至实现了反超。
特别值得一提的是在AIME2025测试上的表现。AIME是美国数学邀请赛的缩写,题目难度极高,通常用于选拔顶尖数学人才。在这个测试中,STEP3-VL-10B的普通模式达到了87.66%的正确率,而开启PaCoRe模式后更是飙升到94.43%,这个成绩甚至超过了谷歌的Gemini 2.5 Pro(83.96%)和字节跳动的Seed-1.5-VL(64.06%)。
在另一项高难度数学测试HMMT25(哈佛-MIT数学锦标赛题目)中,PaCoRe模式下的STEP3-VL-10B达到了惊人的92.14%,而体量巨大的Qwen3-VL-Thinking只有67.71%。这就像一辆小型电动车在赛道上追上了一辆大排量超跑,令人难以置信,但数据就摆在那里。
当然,STEP3-VL-10B并非在所有测试中都能称霸。在一些需要广泛世界知识的测试中,比如SimpleVQA(简单视觉问答),大型模型仍然保持优势。这也符合直觉:更大的模型确实能够"记住"更多信息。但在需要深度推理和精确感知的任务中,STEP3-VL-10B展现出了超乎想象的竞争力。
一个有趣的发现:感知任务的"思考悖论"
研究团队在训练过程中发现了一个有趣的现象,他们称之为"长度消减效应"。
在纯文字推理任务中,强化学习通常会让模型产生越来越长的"思考链",就像学生在解难题时写下越来越详细的步骤。这是可以理解的:更复杂的问题需要更多的推理步骤。
研究团队给出了一个精妙的解释。在感知任务中,答案通常是确定的,图像中的物体要么在这个位置,要么不在。当模型变得更加"自信"时,它不需要再进行大量的"自我怀疑"和"反复验证"。原本那些"让我再看看..."、"也许是..."之类的试探性表述被精准的判断所取代。这就像一位经验丰富的医生看X光片:新手可能需要反复对照教科书、犹豫不决,而老手一眼就能看出问题所在。
这个发现揭示了推理和感知这两种能力的本质差异。推理任务本质上需要"展开",把隐含的逻辑步骤显式化;而感知任务则更多地需要"收敛",把不确定性压缩为确定的判断。
这也解释了为什么PaCoRe在感知任务上特别有效。虽然单次感知的"思考过程"可能很短,但通过并行生成多个独立判断再综合,模型能够弥补单次判断可能遗漏的细节。这有点像病理诊断中的"会诊制度":每位医生独立看片后给出判断,最后综合大家的意见做出最终诊断。
技术细节:模型是如何"看"和"想"的
让我们稍微深入一些技术细节,但仍然用通俗的方式来理解。
STEP3-VL-10B的"视觉系统"由一个18亿参数的感知编码器组成,这个编码器的工作就是把图像转换成模型能够理解的"语言"。想象你要向一个只懂文字的朋友描述一幅画,你需要把视觉信息转化为语言描述。感知编码器做的就是类似的事情,只不过它输出的是一种特殊的"内部语言",专门设计用于与语言模型对接。
图像处理采用了一种叫做"多裁剪策略"的方法。当模型收到一张图片时,它不是简单地一次性处理整张图,而是同时看两个版本:一个是728×728像素的"全局视图",让模型了解整体构图;另外还有多个504×504像素的"局部裁剪",让模型能够看清细节。这就像你在欣赏一幅大型油画时,既要退后几步看全貌,又要凑近了看笔触,两种视角缺一不可。
在语言理解和生成方面,STEP3-VL-10B使用的是Qwen3-8B作为"大脑"。这个组件负责理解问题、组织思路、生成回答。当视觉编码器把图像信息"翻译"过来后,Qwen3-8B会把这些信息与文字问题结合起来进行推理。
两个组件之间有一个"桥梁",叫做投影器(Projector)。这个投影器会对视觉编码器的输出进行16倍的空间压缩,简单说,就是把大量的视觉信息"浓缩"成更精炼的形式。这种压缩是必要的,因为语言模型处理信息的方式与视觉模型不同,需要在两者之间找到一个合适的"翻译"方式。
数据的力量:高质量"教材"从何而来
任何AI模型的能力都离不开高质量的训练数据,STEP3-VL-10B也不例外。研究团队在数据准备上投入了大量心血,这部分工作虽然不如模型架构那样引人注目,但同样至关重要。
在知识类数据方面,研究团队从Common Crawl这个巨大的网页数据库中收集了图文交织的网页内容,同时也使用了自己的爬虫系统StepCrawl来获取中文互联网的内容。为了保证数据质量,他们设计了严格的过滤规则:图片下载失败率超过90%的网页会被丢弃;包含二维码的内容会被过滤;比例极端的图片也会被排除。
教育类数据的准备更为精细。研究团队收集了约1500万个样本,涵盖从小学到研究生的各个阶段,学科范围包括数学、物理、化学、人文等。特别值得一提的是,他们专门收集了化学分子式、几何图形等需要视觉理解的内容,因为这些是文字描述难以完全传达的。
最有意思的是GUI(图形用户界面)数据的收集。研究团队从超过200个应用程序中收集了约2300万个样本,覆盖了安卓、iOS、Windows、Linux、macOS等各种平台。这些数据不仅包括静态的界面截图,还包括操作轨迹,也就是人类用户是如何一步步完成任务的。这就像让模型不仅看到菜谱的最终成品照片,还能看到整个烹饪过程的录像。
与"前辈"们的设计抉择
在开发过程中,研究团队进行了多项对比实验,来验证各种设计选择的有效性。这些实验虽然技术性较强,但结论对于理解模型的成功很有帮助。
其次是优化器的选择。研究团队尝试了一种叫做Muon的新型优化器,它在处理噪声数据时理论上更有优势。实验确实显示Muon在某些任务上有提升,比如SimpleVQA提高了6.48%。然而,由于Muon与预训练权重存在初始化兼容性问题,需要很长的预热期才能发挥效果,最终研究团队还是选择了更成熟的AdamW优化器。
还有一个有趣的实验是关于"Deepstack"技术的。这是一种深度扩展技术,已经在其他模型(如Qwen3-VL)中成功应用。研究团队发现,虽然Deepstack能够加速训练收敛,但在最终的评估指标上并没有带来显著提升。考虑到额外的计算开销,他们决定不在最终模型中使用这项技术。
这些实验的价值在于,它们不仅验证了最终设计选择的合理性,也为后续研究者提供了宝贵的经验教训:在AI研究中,有时候看起来"更先进"的技术并不一定带来更好的实际效果。
在技术报告的最后,研究团队展望了未来的发展方向。他们认为STEP3-VL-10B虽然在数字世界的任务中表现出色,但要真正实现人工智能的愿景,还需要跨越"现实鸿沟",让AI不仅能够理解和推理,还能够与物理世界互动。
第一个发展方向是进一步提升"推理密度"。目前的PaCoRe虽然有效,但需要额外的计算开销。研究团队希望能够把并行探索中学到的智慧"内化"到模型中,让模型在标准推理模式下就能达到类似的效果。用他们的话说,就是把"系统2思维"(慢速、刻意的思考)压缩成"系统1思维"(快速、直觉的反应)。这就像一位棋手,最初需要反复计算才能想到好招,但经过大量练习后,好招会自然而然地浮现在脑海中。
第二个方向是"物理世界模型"的构建。目前的多模态模型主要处理静态图像和文字,但真实世界是动态的、三维的、有因果关系的。研究团队设想未来的模型需要能够处理大量的视频数据和运动序列,从中学习物理规律和时空动态。最终目标是让AI能够像人类一样,对物理世界有直觉性的理解,知道一个球滚下斜坡会发生什么,知道把杯子放在桌子边缘可能会掉下去。
第三个方向是"具身思维链"(Embodied Chain-of-Thought)。这个概念是指让模型在规划行动之前,能够明确地推理物理状态的变化。目前的模型在面对"下一步该怎么做"这类问题时,往往缺乏对物理后果的深入考虑。未来的模型应该能够在行动之前"模拟"可能的后果,就像人类在搬运易碎物品时会预先想好路线和手法一样。
至顶AI实验室洞见
STEP3-VL-10B的成功向我们展示了一种可能性:通过更聪明的训练方法和更巧妙的推理策略,小型模型也能展现出惊人的智能。如果高质量的多模态AI能够在更小的计算规模上运行,那么AI的普及将大大加速,出现在更多的边缘算力设备上。
阶跃星辰团队已经将完整的模型权重和训练文档开源发布,让全世界的研究者都能够基于他们的工作继续探索。正如他们在报告中所说,"紧凑"与"前沿"之间的鸿沟并非不可逾越,而STEP3-VL-10B就是跨越这条鸿沟的第一步。
模型地址:https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
论文地址:https://www.arxiv.org/abs/2601.09668
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:STEP3-VL-10B中的"10B"是什么意思?
A:10B代表100亿(10 Billion)参数。参数可以理解为AI模型的"记忆单元"数量,通常参数越多,模型能力越强。STEP3-VL-10B的创新之处在于,用仅100亿参数就达到了千亿级模型的表现水平。
Q2:普通人可以使用STEP3-VL-10B吗?
A:可以的。研究团队已经将模型完全开源,发布在HuggingFace和ModelScope平台上。具备一定技术基础的用户可以下载并在自己的设备上运行,不过由于是10B级别的模型,仍需要较好的GPU支持。
Q3:PaCoRe会不会因为需要多次计算而变得很慢?
A:确实,PaCoRe模式需要生成16个独立答案再综合,计算量比普通模式大。但对于需要高准确率的复杂任务(如数学竞赛题),这种"用时间换质量"的权衡是值得的。研究团队也在探索如何将PaCoRe的优势"压缩"到单次推理中。