清华大学&面壁智能 投稿
量子位 | 公众号 QbitAI
端侧性价比之王,清华大学和面壁智能团队开源新模型——
MiniCPM 4,提供8B、0.5B两种参数规模,仅使用同级别开源模型22%的训练开销,就达到了同级别最优性能。
MiniCPM4-8B是开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。
在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
MiniCPM4-0.5B在性能上,也展现出以小博大——在MMLU、CEval、BBH、HumanEval等基准测试中,MiniCPM4.0 -0.5B性能超越同级的Qwen-3-0.6B、Llama 3.2、Gemma3,并通过原生QAT技术实现几乎不掉点的int4量化以及600Token/s的极速推理速度。
在常见端侧芯片,比如Jetson AGX Orin与RTX 4090上,MiniCPM 4可实现长文本处理的5倍常规加速与极限场景下的百倍加速。
请看VCR:
目前团队已公开发布技术报告,该模型在模型架构、推理系统、数据治理与训练算法四个层面进行了系统级创新。
以下是技术详情。
模型架构:InfLLM v2原生稀疏注意力模型
随着大语言模型在长上下文处理(例如DeepResearch、仓库级代码理解与生成)和深度思考能力方面的广泛应用,模型理解和生成长序列的需求变得愈发重要。
然而,自注意力机制高昂的计算和存储开销为在端侧设备上高效处理长文档带来了重大挑战。为此,MiniCPM4中采用了一种高效稀疏注意力架构,InfLLM v2,在保持模型性能的同时实现高效的长上下文处理。
面向不断增长的高效处理长序列的需求,当前许多研究致力于设计免训练的稀疏注意力机制,以动态选择相关的上下文词元进行长上下文处理。
然而,这些训练方法由于稀疏性不够理想,只能应用于预填充加速阶段。
最近,Kimi MoBA和DeepSeek NSA在预训练阶段应用稀疏注意力来提升稀疏注意力模型的性能。但是,MoBA采用查询块设计,无法在解码阶段实现加速。
此外,根据团队的观察,相邻词元之间的相关上下文通常差异很大。因此,强制相邻标记共享相同上下文可能导致次优性能,同时注意力的稀疏性也无法得到改善。NSA引入了三种不同的注意力组件来捕获长距离信息,但这些额外的注意力组件会增加参数量,导致短序列的计算开销增加,并使预训练阶段的键值存储成本增加三倍。
为解决以上问题,基于稀疏注意力模型InfLLM,MiniCPM4设计了一种可训练的稀疏注意力InfLLM v2,以降低预填充和解码阶段的计算和内存访问成本。
InfLLM v2不会为注意力层引入额外参数,并在短序列处理中使用原始稠密注意力机制,因此短序列的推理速度不会受到影响。
此外,InfLLM v2设计了一种高效的Top-K上下文块选择方法,相比NSA可减少60%上下文选择过程中的计算成本。
具体而言,在2024年2月,清华大学就提出了InfLLM算法。
传统稠密注意力计算过程,每个词元都需要与过往所有词元进行逐一的相关性计算,带来了巨大的计算与访存开销。
因此,为避免逐词元的计算与访问,InfLLM提出将上下文进行分块分区域处理。
注意力层进行计算之前,对每个查询词元逐块地进行上下文相关性计算,并选取少量最相关的上下文块参与最终的注意力计算。即实现了注意力层的智能化选择机制,只对最有相关性的重点区域进行注意力计算“抽查”。
InfLLM是一种免训练的动态稀疏注意力机制,能够被应用于所有的Transformer架构模型中实现长文本推理加速。
MiniCPM4中对InfLLM 算法进行进一步的改进,实现了稀疏度更高、能够同时加速预填充与解码阶段的原生稀疏注意力机制 InfLLM v2:
1)更精准的上下文块选择算法:
在InfLLM中,每个上下文块由少量代表元构成单一的语义表示。InfLLM v2引入了细粒度语义核的概念,每个上下文块由多个细粒度语义核构成。查询词元与上下文块的相关性分数为查询词元与该上下文块中包含的所有语义核相关性分数最大值。该方法使得模型能够更精准地选择上下文块。
2)更细粒度的查询词元分组:
InfLLM在预填充阶段将多个查询词元分成一组,使该组内所有查询词元选择相同的上下文块进行注意力计算。该方法会造成模型训练与推理的不统一。InfLLM v2中采用了更细粒度的查询词元分组——要求Grouped Query Attention中每组查询头共享相同的上下文块。该划分在保证了底层算子高效实现的同时,提升了模型上下文选择的准确性。
3)更高效的算子实现:
为了InfLLM v2能够在训练与推理过程中充分发挥其理论加速优势,MiniCPM4开发并开源了InfLLM v2的高效训练与推理算子。同时,为了能够快速地选取TopK上下文块,MiniCPM4中提出了一种高效的LogSumExp估计算法。相比于DeepSeek NSA算法,MiniCPM4中采用的TopK上下文选择方法,能够节省60%的计算开销。
推理高效:端侧高性能推理与部署框架
由于移动设备和个人电脑等端侧设备在计算和存储容量方面存在严格限制,如何在有限的硬件资源下实现大语言模型的高效推理已成为关键技术挑战。
为此,MiniCPM4中构建了轻量化高效的CUDA推理框架CPM.cu与跨平台部署框架ArkInfer。
CPM.cu:轻量化高效CUDA推理框架
为了能够让MiniCPM4充分释放速度潜力,团队开发了一个专为端侧NVIDIA芯片优化的轻量化推理框架,CPM.cu。
除了静态内存管理和算子融合等基础功能外,还实现了高效的投机采样、前缀敏感的量化算法,并为InfLLM v2集成了高效的稀疏注意力算子。
FR-Spec:面向草稿模型的词表剪枝
投机采样是加速大模型推理速度的关键技术之一。
投机采样采用“草稿-验证”的范式,由轻量化的草稿模型生成候选词元序列,然后由目标大模型并行验证。
通过设计针对树状投机采样的高效注意力算子并实现验证过程的融合算子,团队极大优化了投机采样算法的速度。
基于该框架,团队发现端侧模型投机采样的效率瓶颈在于草稿模型的语言模型输出头。
为解决这一问题,他们提出了FR-Spec,通过基于词元出现频率对草稿模型的输出词表进行剪枝,同时保留目标模型的完整词表以保持其生成正确性。
FR-Spec利用了自然语言中词元频率分布的长尾特性——少数高频词元承载了绝大部分的语言信息。
通过将草稿模型的搜索范围限定在按频率排序的核心词元子集内,FR-Spec成功将语言模型的输出头的计算开销降低了75%,同时严格保证了验证过程的数学等价性和最终输出分布的准确性。
相比于原始模型,FR-Spec可以带来2+倍的生成加速。
P-GPTQ:前缀敏感的模型训练后量化
随着大模型参数规模的不断扩大,模型量化已成为实现端侧部署的关键技术。
通过将模型参数与激活从高精度浮点数转换为低精度整数表示,量化技术能够显著降低模型的存储需求,使大模型能够在资源受限的端侧设备上高效运行。
针对端侧部署中权重和激活同时量化的需求,MiniCPM4开发了前缀感知的GPTQ(P-GPTQ)方法。
该方法基于一个关键观察:大模型在初始词元位置存在显著的激活异常值,这些异常值不仅影响激活的量化质量,还会在权重量化校准过程中引入统计偏差。
P-GPTQ的核心思想是在量化过程的Hessian矩阵计算时排除初始词元的干扰。
实证分析发现,大模型初始位置的激活幅度比后续词元大10倍,将严重影响协方差运算。MiniCPM4采用位置感知的校准策略,仅使用从第4个位置开始的稳定词元进行量化参数计算,有效消除了初始词元带来的统计偏差。
该方法与现有量化技术(如Quarot旋转方法和AWQ平滑方法)完全兼容,可无缝集成到现有量化流水线中。
实验结果表明,在INT4量化设置下,P-GPTQ相比其他量化方法取得了最优性能,显著减少了相对于FP16基线的性能退化。
投机采样、量化算法、长文本处理算法的有机融合
在MiniCPM4中,团队使用了多种加速算法。为了能够使得投机采样、量化、长文本处理算法能够有机融合,团队系统性地研究了加速算法的融合方法。
目标模型量化:在前序的研究SpecMQuant中,团队发现量化会改变投机采样的最优配置策略。当目标模型使用W4A16量化后,由于内存访问瓶颈的缓解,验证时间相对于解码时间的增长更快,因此需要使用更少的草稿词元来维持最佳的加速比。这一发现为量化模型的投机采样提供了重要的配置指导。
草稿模型量化:团队进一步对草稿模型应用量化技术,使草稿生成过程更加高效。针对传统量化方法在草稿模型上导致接受率大幅下降的问题,采用了量化感知的后训练方法,成功保持了投机采样过程的平均接受长度。
长上下文场景优化:对于长上下文应用,实现了InfLLM v2稀疏注意力内核来支持目标模型的高效处理,并通过构建局部注意力掩码和位打包技术支持树形草稿验证。同时,为草稿模型引入滑动窗口注意力机制,既最大程度减少了首词元延迟的影响,又提高了草稿生成的准确性,有效解决了长上下文场景下的性能瓶颈。
除了有限的计算资源挑战外,端侧芯片的碎片化是另一个重大障碍。
芯片碎片化要求每次发布新模型时,都需要将模型适配到多个平台和芯片类型,导致复杂的适配和部署过程,这带来了巨大的工程工作量。
这一问题的核心在于解耦和高效的代码复用:如何让单一的技术开发和工程成果自动应用于多个平台?
为了解决这些痛点,团队提出了ArkInfer,一个新颖的跨平台部署系统。ArkInfer旨在通过提供高效的推理速度并作为各种模型应用的多功能跨平台兼容层,来克服端侧芯片的碎片化问题。
为此,团队引入了三个关键解决方案:
1)跨平台兼容的架构设计;
2)可复用且高效的推测采样与约束解码方案;
3)可扩展的模型库前端。
跨平台兼容的架构设计
ArkInfer的架构设计从根本上受到在碎片化的端侧硬件环境中实现统一、高效部署需求的驱动。为了支持如联发科(MediaTek)、英伟达(Nvidia)、高通(Qualcomm)和瑞芯微(Rockchip)等多样化平台(每个平台都有其原生推理框架,例如NeuroPilot、Genie、RK-LLM、TensorRT-LLM以及用于CPU的llama.cpp),ArkInfer将这些框架无缝集成为可适配的后端。
ArkInfer的核心实现了一个强大的抽象层。
该层包含一个适配器系统,能够规范化不同后端的各种API,为上层组件提供一致的接口。这确保了无论底层硬件或框架如何,都能实现无缝交互。通过统一的Tensor结构进一步简化了数据处理,该结构封装了不同的数据类型和维度,确保在整个系统中进行一致的操作。对于LLM效率至关重要的KV缓存管理器,则智能地编排历史状态的存储和检索,优化后续词元的生成。
该架构的核心组件是一个抽象执行器接口,它管理所有模型相关流程的执行,其输入和输出由基础张量类型定义。这种设计一方面支持了执行器粒度的异构调度,使团队能够充分利用多样化的计算资源。
此外,通过追踪执行器的执行过程,团队可以跟踪数据和操作的流程,这极大地促进了调试和性能分析,特别是对于端侧适配中常见的痛点——关键阶段精度对齐问题。
可复用且高效的推测采样与约束解码方案
高效的LLM推理技术通常分为三类:量化、稀疏性和加速自回归过程。
前两者(如GPTQ、MoE和InfLLM v2)通常与特定硬件或算子实现深度耦合,而像推测采样(Speculative Decoding)和约束解码(Constrained Decoding)这样的加速技术则与底层硬件的耦合相对松散。
这种解耦使团队能够在部署框架中仅做一次实现,并在多种芯片架构上启用它们。
因此,ArkInfer集成了推测采样和约束解码功能。团队的设计理念核心是设计上的通用性,易于集成到现有的执行后端中。集成了:
加速推测解码(Accelerated Speculative Decoding):为了提升推理速度,ArkInfer集成了基于BiTA算法的高级推测解码机制。选择此技术是因为它能在无需额外草稿模型或特殊架构改动的情况下显著提升性能,简化了在资源受限的端侧设备上的部署,同时保持高输出质量。
约束解码(Constrained Decoding):为确保输出符合特定格式(如JSON或SQL),ArkInfer采用了强大的约束解码方法,利用了Guidance框架。选择此方法是因为其在强制执行结构遵从性和提供确定性响应方面具有卓越能力,这对于需要结构化或精确输出的应用至关重要。
在端侧设备上部署模型的一个关键障碍源于不同厂商模型文件的碎片化。不同的芯片制造商通常要求各自独特的格式和要求,导致部署流程复杂且低效。
团队认为,最优的方法是维护一个集中式的模型库,提供广泛选择的、预先适配好的模型。
为此,团队为ArkInfer设计了一个可扩展的、跨平台的前端。该接口允许用户直接访问和执行团队模型库中的各种模型,从而显著简化了MiniCPM及其他模型在多样化设备上的部署。
除了加速模型库的增长和维护,还创建了一个自动化模型转换流水线。该系统能高效地将模型转换为不同平台所需的格式,极大地加速了团队模型库的持续开发。
数据高效:高能力密度数据筛选与合成
随着大模型的快速发展,数据质量已成为提升模型性能的关键因素之一。
因此,为了能够提升大模型的能力密度,团队开展了大量的数据工程,从而使得MiniCPM4能够仅使用8T词元就能够达到与用了36T词元的Qwen3相当的效果。
UltraClean:高能力密度预训练数据筛选
当前预训练数据的筛选方法可被分为两类:
一类是基于规则的筛选,通过人为制定的规则来挑选出高质量的预训练数据,该方法覆盖面有限,仅能够过滤少量的低质量样本。一类是基于模型分类器的筛选,通过训练一个数据质量分类器来对数据进行筛选。
利用基于模型的分类器来过滤数据这类方法,面临两个主要挑战:
1)缺乏高效的数据验证策略,难以及时反馈数据质量;
2)用于训练分类器的种子数据选择缺乏明确标准,严重依赖人工经验,引入主观偏差。
为解决这些问题,MiniCPM4中提出了一种高知识密度数据的筛选方法。该方法中依赖高效的数据验证策略,旨在以最小的计算成本快速评估数据对大模型训练的实际影响。
基于此,团队基于高质量种子数据应有助于提升大模型性能的假设,优化了种子数据中正负样本的选择过程,并构建了高效的数据过滤流程。
工作流程:
整体工作流程如上图所示。团队首先应用高效验证策略评估初始候选种子样本池,选择能显著改善训练性能的高质量数据作为分类器训练的正样本种子。
同时,从原始数据池中随机抽取负样本,构建平衡的训练集,训练数据质量分类器。
为了更高效地评估分类器的实际效果,还对其过滤结果应用高效验证策略。
基于验证反馈,迭代更新高质量种子池,动态调整正负样本比例,并微调分类器的训练超参数,从而持续优化数据过滤策略。只有在高效验证下表现稳定可靠的分类器才会用于大规模数据过滤和后续模型训练。
高效验证策略:
在有限的词元训练预算下,大模型训练中数据带来的性能差异往往比较微小,而训练过程固有的不稳定性也进一步削弱了验证结果的可靠性。
有效的预训练数据验证通常需要至少100B词元。在1B参数的大语言模型上训练100B词元需要约1200个GPU小时,相当于64个GPU连续运行近19小时。
如此高的计算成本使得在高质量数据分类器的迭代开发过程中进行高效验证变得不切实际。
为解决这一问题,团队提出了一种高效验证策略。
具体而言,他们训练一个10亿参数的大模型,总计覆盖1.1万亿词元。这包括1T词元的稳定训练阶段和额外100B词元的退火训练阶段。
在此基础上,团队引入两阶段退火训练过程,首先使用原始数据进行 90B 词元的退火训练,并进一步在10B词元上进行二阶段退火训练。
二阶段退火训练中30%的数据是待验证的新数据,剩余70%使用原始的数据。与1200个GPU小时的完整训练成本相比,该策略将训练时间缩短至约110小时(即在32个GPU上少于3.5小时),显著降低了计算需求,大幅提升了数据过滤流程的效率和可迭代性。
最终,利用该数据筛选策略,基于FineWeb数据,筛选得到大规模高质量数据UltraFineWeb,包含有1T+高质量的中英文预训练语料。其中预训练结果对比如下图所示。
基于UltraFineWeb训练得到的模型,能够取得显著的下游任务性能提升。
UltraChat-v2:高能力密度有监督微调数据合成
为了全面提升大语言模型的核心能力,团队构建了一个针对任务能力的数据合成框架。
该框架以核心能力维度为导向,系统性地生成涵盖多元技能的高质量问答数据,为后训练阶段提供更加精准和结构化的学习信号。
团队围绕五个关键技能领域精心设计了合成数据生成流程:知识应用、逻辑推理、指令遵循、长上下文处理和工具使用。
每类数据都深度适配其目标技能的输入输出特征和认知要求,生成多样化、任务驱动且具备良好迁移性的训练样本。
学习高效:多维度训练策略优化
大模型的规模法则表明,模型性能随着训练量的增加而提升。降低模型训练开销,是持续推动模型不断Scaling的关键。
在MiniCPM4中,团队从预训练训练前开展超参实验、预训练中实现工程集成与优化、后训练强化进行框架效率优化、后训练极致量化进行存储优化四个方面,实现了大模型的训练高效。
ModelTunnel v2:更高效的预训练策略搜索
训练大语言模型需要巨大的计算成本,因此在最小化计算资源消耗的同时最大化模型性能成为一个关键挑战。
在MiniCPM1模型训练中,团队基于Predictable Scaling技术构建了第一版模型风洞ModelTunnel。这使其能够在小模型上搜索训练策略并将其迁移到大模型训练中,从而降低为大模型确定最优训练配置的实验成本。
在MiniCPM4的训练过程中,团队复用了ModelTunnel中的相关配置,并开发了ModelTunnel v2,该版本在搜索精度与效率方面有所改进,并对搜索结果的有效性提供了系统性验证。
(1)更可靠的观测指标:
在MiniCPM-1中,团队使用模型在开源预训练语料库上的语言模型损失作为性能指标。
然而,预训练数据集上的损失无法准确反映模型在下游任务上的实际性能。由于涌现现象的存在,风洞中训练的小模型参数量与数据量均有限,无法在下游任务上展现出非随机的性能表现。
因此,团队构建了ScalingBench评测集,建立了下游任务验证集上推理步骤与答案的条件损失,与下游任务性能之间的函数关系。因此该指标能够更准确地预测模型的实际表现。
(2)搜索效果验证:
利用可预测缩放进行超参数搜索是降低实验成本同时最大化模型性能的关键途径,该方向近年来受到学术界与业界的广泛关注。
相关研究主要分为基于架构的超参数迁移和数据驱动的超参数迁移两类。
在MiniCPM系列模型中,团队采用μP架构,该方法允许超参数在不同模型规模间迁移。
在MiniCPM4 中,团队比较了μP架构与数据驱动的超参数迁移方法的性能差异。
实验结果显示,两种方法在最终模型的性能上没有显著差异,但数据驱动的超参数迁移需要开展大量的搜索实验,如StepLaw需要百万的GPU机时进行超参数搜索。而MiniCPM系列模型的架构,只需要32个GPU机时即可以搜索得到最优参数,大幅降低了超参数搜索的开销。
Chunk-wise Rollout:负载均衡的强化学习
近期研究表明,强化学习可以增强大模型的深度推理能力。然而,直接将强化学习应用于端侧基座模型往往导致训练不稳定和收敛缓慢。
因此,团队首先使用长思维链数据对基础模型进行有监督微调。这一步骤为模型提供了基本的推理能力,并为强化学习提供了更好的初始化。
随后,他们继续使用强化学习进一步提升模型性能。
考虑到强化学习算法极大受限于模型采样生成的步骤,为了提高训练效率,团队精心筛选了训练数据并引入了分块推理策略,通过优化GPU利用率和减少计算浪费显著加速了强化学习过程。
为了减轻推理阶段冗长轨迹导致的推理吞吐量下降,团队提出了分块推理策略以最大化计算资源利用率。该策略的工作流程包含三个步骤:
(1)策略模型为所有输入样本生成固定分块长度的轨迹。
(2)已完全完成或达到最大生成长度的轨迹用于训练,对于未完成的轨迹,计算并存储其对数概率以供后续重要性采样使用。
(3)未完成的轨迹与下一批新输入合并,然后流程返回步骤(1)。
通过采用这一策略,团队显著提高了GPU利用率,有效减少了单次推理迭代中过长输出造成的计算浪费。
实验结果表明,MiniCPM4中提出的分块推理策略能够节省70%的采样时间,每个训练步耗费的时间减少42%。
BitCPM:极致的三值量化
部署大模型面临高计算和内存需求的挑战。模型量化通过降低参数精度来解决这一问题,实现高效推理并减少资源消耗。极低比特量化近期备受关注并展现出巨大潜力。
本文介绍了一种高效的量化感知训练方法来构建三值模型BitCPM4,证明了将高精度大模型适配为极低比特版本的可行性。
团队训练了两个规模的三值模型:BitCPM4-0.5B和1B参数模型,整个训练过程使用了350B 词元。
实验结果显示,在0.5B参数级别,BitCPM4-0.5B在知识相关任务上表现优异,超过了Qwen3 0.6B全精模型;在1B参数级别,BitCPM4-1B的性能与2B参数模型相当。
由于所需词元数量仅为同类方法的10%,证明了团队的方法能够以更低训练成本提供具有竞争力的结果。
核心性能表现效率评测
为了能够实现极致的推理加速,在MiniCPM4中,团队构建了稀疏注意力机制 InfLLM v2,使用了投机采样算法 FR-Spec,提出了前缀敏感的量化算法,并搭建了自研的推理框架,从而实现在端侧芯片上的极致提速。
为了验证团队所提出算法的有效性,在本节中,团队在两款典型的端侧芯片上测试模型的效率。
具体而言,选定了两款端侧芯片:Jetson AGX Orin 和 RTX 4090。其中前者被广泛应用于车载芯片、机器人等端侧场景,而后者更多是PC场景下的计算设备。
评测结果如图所示。团队评测了 Llama3-8B、GLM4-9B、Qwen3-8B和MiniCPM4在32K到128K序列上的吞吐速度。
从结果中可以观察到:
推理加速显著:相比同等参数规模的开源大语言模型,在预填充和解码场景中都能实现一致的加速。
具体而言,相比Qwen3-8B,在Jetson AGX Orin上可以实现约7倍的解码加速,证明InfLLM v2稀疏注意力机制在端侧设备上具备极高实用价值。
序列越长,加速越强:随着文本长度增加,团队模型的效率优势变得更加明显。
这是由于稀疏注意力机制能够有效降低长文本计算与访存开销。随着模型需要处理的文本长度逐渐增加,传统稠密注意力机制的访存开销快速增长,而 InfLLM v2需要访问的上下文块数量保持不变,只有语义核的表示会随着序列长度缓慢增长。
因此,在长序列处理中,MiniCPM4能够始终高效地处理长文本。
标准评测
团队在表1中展示了MiniCPM4与基线模型的评测结果。从结果中可以观察到,MiniCPM4-0.5B和8B模型在各类任务中都取得了领先表现。
MiniCPM 4与其它开源大语言模型的评测结果:
性能领先:MiniCPM的两款模型都在相近尺寸的模型中实现了最先进的性能,这表明了团队训练方法的有效性。
MiniCPM的两款模型都能够超越部分参数量远超MiniCPM模型的开源大模型。例如,MiniCPM4-0.5B可以取得比Llama3.2-1B、Gemma3-1B更优的性能,即使它们的参数规模是MiniCPM4的两倍。MiniCPM4-8B也能够超越Gemma3-12B和Phi4-14B。
这进一步表明,利用高质量的数据和高效的学习算法,MiniCPM4能够取得优异的性能。
训练效率高:相比于这些开源模型,MiniCPM4 能够使用远低于它们的训练开销,取得优异的性能。
具体而言,MiniCPM4与Qwen3具有相当的性能,而Qwen3使用了36T词元进行训练,而MiniCPM4仅使用了8T词元,只有Qwen3训练数据量的22%,这充分验证了Ultra-FineWeb数据筛选与Model Wind Tunnel v2训练优化策略的有效性。
长上下文评测
在MiniCPM4 中,团队使用稀疏注意力机制将上下文窗口扩展到32K。
在本节中,团队评测MiniCPM4在长序列理解任务上的表现。具体来说,团队遵循Ruler的方法,在大海捞针任务(RULER-NIAH)上评测其模型。应用YaRN将MiniCPM4的上下文窗口扩展到 128K,并在128K NIAH上评测 MiniCPM4。
结果如图所示。从结果中可以观察到:
长序列处理能力强:MiniCPM4在长序列上能够取得令人满意的性能,在大海捞针任务上达到100%的准确率。并且对于每个词元,MiniCPM4只需要模型关注6K上下文词元,这意味着在128K上下文中,MiniCPM4的稀疏度仅为 5%。
上下文外推能力强:MiniCPM4在上下文窗口外推方面具有良好的性能。即使团队只在32K上下文上预训练模型,MiniCPM4也能在4倍上下文长度上达到100%的准确率。
在后续章节中,团队将MiniCPM4应用于调查报告生成任务,该任务需要模型读取和写入长文档。MiniCPM4能够取得比其他基线模型更好的性能,显示了MiniCPM4在长序列处理方面的有效性。
应用和场景
得益于卓越的推理效率与模型能力,MiniCPM4在多个关键任务中展现出强大适应性。团队重点展示两个关键应用:
可信的综述生成(MiniCPM4-Survey):面向高质量长文档理解与生成的典型任务,验证了MiniCPM4在长序列处理场景下的优越性能。
MCP协议增强的工具调用(MiniCPM4-MCP):面向Agent智能体部署,强调模型与复杂工具链和环境的交互能力,适用于端侧智能与实际任务执行。
MiniCPM4-Survey:可信的综述生成
在科研辅助场景中,自动化生成高质量综述文献是一项挑战极大的任务,需要模型具备出色的信息整合、结构规划和语言生成能力。
团队提出了基于MiniCPM4-8B构建的SurveyAgent系统,采用“规划—检索—写作”三阶段流程,高效生成结构清晰、内容可信的长篇综述。
团队构建了包含规划大纲、检索关键词、节级内容等高质量训练数据,并设计了从监督微调(SFT)到章节级、全局级强化学习(RL)的多阶段训练策略,逐步提升模型的全局规划性和细节深度。
同时,团队还建立了一套完整的奖励系统,从结构合理性、内容深度、新颖性、引用一致性等多个维度对模型能力进行评估。
在SurveyEval测试集上的评测结果表明,MiniCPM4-Survey在内容相关性、覆盖度、深度和新颖性等方面的平均得分与OpenAI Deep Research持平,并在FactScore(事实一致性)上取得所有系统中的最高分,显示其在本地部署、隐私保护和低成本条件下的长文处理能力具备强大竞争力。
下方表格展示了 MiniCPM4-Survey与基线模型的评测结果。“G2FT”代表Gemini-2.0-Flash-Thinking,“WTR1-7B”表示Webthinker-R1-7B。
由于Webthinker不包含引用功能,以及OpenAI Deep Research在导出结果时不提供引用,因此省略了对它们的FactScore评估。
注: 粗体数值表示每列中的最佳性能。”—“条目表示未对这些方法进行Fact Score评估。
MiniCPM4-MCP:MCP协议增强的工具调用
大语言模型与外部工具的交互流程往往依赖人工构造,缺乏统一标准,导致智能体系统扩展性差、复用成本高。
为应对这一挑战,MCP(Model Context Protocol)提供了统一的模型-工具交互协议,允许语言模型在标准化框架下调用任意外部服务。
团队构建了MiniCPM4-MCP模型,使其具备理解MCP协议、发现并调用各类工具、完成复杂任务链路的能力。
团队采用“正向生成 + 反向构造 + 数据集转换”的方式构建训练数据,涵盖单工具调用、跨工具组合调用和多轮工具交互,共计约14万条样本,辅以人工与LLM双重质量审核。
团队还搭建了基于Docker的MCP工具调用环境,覆盖办公、出行、文件管理等多个真实服务,配合客户端进行自动测试与适配,确保模型训练数据与环境高度一致。
在人工标注测试集上的评测结果显示,MiniCPM4-MCP在函数名称、参数名和参数值填充准确率方面全面优于 Qwen3-8B,并在多个服务器上逼近甚至超越GPT-4o,证明其具备通用、多样的工具调用能力,是构建智能体系统的理想基础模型。
Github链接:https://github.com/openbmb/minicpm
技术报告链接:https://arxiv.org/pdf/2506.07900
Huggingface链接:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope链接:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d