训练成本低至惊人!MiniMax 开源Flash Attention机制的 M1 推理模型
创始人
2025-06-20 19:41:00

年初DeepSeek R1开源,以550万美元的后训练成本震惊硅谷。

几天前,Minimax-M1模型开源,后训练成本约53.5万美元,还不到R1模型的十分之一; M1模型支持的上下文长度达100万token,是R1的8倍;生成10万token长度的内容,M1所需的计算量也只要R1的四分之一。

生成长度VS计算量

2025年6月16日,MiniMax团队基于MiniMax-Text-01模型训练出Minimax-M1模型,M1模型总参数4560亿,激活参数459亿。MiniMax团队将M1模型开源在Hugging Face和魔搭社区等平台,在ArXiv平台发表论文公布技术细节。

当你打开手机跟AI聊天时,有没有想过一个问题:为什么AI有时候回答很快,有时候却要思考很久?特别是当你问一些复杂问题时,AI需要进行深度思考,就像人类面对数学难题时需要在草稿纸上反复推演一样。但这里有个技术难题:让AI思考得越深入,计算成本就越高,就像开车时速度越快耗油越多。

MiniMax团队最近发布的M1模型改变了这个局面。他们创造了世界上第一个开源的大规模混合注意力推理模型,能够让AI在进行长达8万个token(相当于约6万个中文字符)的深度思考时,仍然保持极高的运行效率。而且M1模型支持处理100万个token的超长上下文,相当于能够一次性阅读和理解一本中等厚度的小说。

这项研究的核心突破在于闪电注意力(Flash Attention)机制。传统的AI模型就像一个需要同时关注所有信息的人,信息越多,大脑负担越重。而闪电注意力就像是给AI配备了一个智能的注意力管理器,能够高效地在大量信息中找到关键点,避免不必要的计算浪费。

研究团队不仅在技术架构上实现了突破,还开发了一种名为CISPO的全新训练算法,让AI的学习过程变得更加高效。在实际测试中,M1模型在数学竞赛、编程挑战、软件工程、长文本理解等多个领域都表现出色,特别是在需要长时间深度思考的复杂任务上,其表现甚至超越了一些闭源的商业模型。

技术革命的核心:从"全时关注"到"智能聚焦"

理解M1模型的突破性,首先要明白传统AI模型面临的根本挑战。当AI处理信息时,就像一个人试图同时听懂房间里所有人的对话一样。随着对话人数增加,这个人需要投入的注意力呈指数增长,最终会因为负担过重而无法正常工作。

传统的Transformer架构就存在这样的问题。当AI需要处理的文本越来越长时,其计算复杂度会呈平方增长。如果处理1000个字符需要1单位的计算量,那么处理2000个字符就需要4单位,处理4000个字符则需要16单位。这种增长速度让长文本处理变得极其昂贵和缓慢。

MiniMax团队的解决方案是创造性地结合了两种注意力机制:传统的softmax注意力和革命性的闪电注意力。这就像是为AI配备了两套思维系统:一套用于精确分析,另一套用于快速扫描。在大部分情况下,AI使用高效的闪电注意力快速处理信息,只有在遇到特别重要的内容时,才启用精确但耗能的传统注意力进行深度分析。

具体来说,M1模型采用了7:1的混合比例:每7个闪电注意力层后面跟随1个传统注意力层。这种设计让模型在保持理解能力的同时,大幅降低了计算成本。研究结果显示,当生成10万个token的长文本时,M1模型的计算量仅为传统模型的25%,这意味着同样的硬件可以支持4倍长度的思考过程。

闪电注意力的工作原理可以用图书馆的例子来理解。传统注意力就像是要求图书管理员记住每本书与其他所有书之间的关系,这在书籍较少时尚可管理,但当图书馆有数万本书时就变得不可能。而闪电注意力则像是建立了一个智能索引系统,能够快速定位相关书籍,而不需要逐一比较每本书。

这种混合架构的另一个巧妙之处在于其渐进式的处理方式。就像阅读一篇长文章时,我们会先快速浏览整体结构,然后对重点段落进行仔细阅读。M1模型的闪电注意力层负责快速建立全局理解,而传统注意力层则专注于精细化的语义分析。

训练革新:CISPO算法让AI学习更智能

除了架构创新,MiniMax团队还在AI的训练方法上实现了重要突破。传统的强化学习训练就像是教导一个学生:当学生回答正确时给予奖励,回答错误时进行惩罚。但这种方法有个问题:当学生说出一些不常见但可能有价值的观点时,系统往往会因为这些观点的不寻常而将其忽略。

CISPO算法的创新在于改变了这种训练逻辑。传统方法会剪掉那些看起来异常的学习信号,就像园丁修剪掉所有不规整的枝叶。而CISPO则更像是一个智慧的教师,认识到一些看似奇怪的想法可能包含有价值的洞察,因此选择保留这些信号,但会对其影响力进行适当调节。

这种方法在实际训练中展现出显著优势。研究团队在Qwen2.5-32B模型上进行的对比实验显示,CISPO算法的训练效率比现有的DAPO算法提高了一倍,这意味着达到同样的性能水平只需要一半的训练时间。

更重要的是,CISPO算法特别适合训练那些需要进行长时间推理的任务。在传统训练中,AI往往会学会寻找快速但浅层的解决方案,就像学生为了节省时间而选择最简单的解题方法。而CISPO鼓励AI进行更深入的思考,即使这意味着需要更多的计算步骤。

这种训练创新的影响是深远的。在数学竞赛测试中,使用CISPO训练的模型不仅准确率更高,其思考过程也更加深入和系统化。模型学会了像人类数学家一样,先理解问题的本质,然后制定解题策略,最后逐步执行并验证结果。

架构挑战的巧妙解决

在开发M1模型的过程中,MiniMax团队遇到了许多前所未有的技术挑战,这些挑战的解决方案本身就构成了重要的技术创新。

首先是精度匹配问题。当AI在训练模式和推理模式之间切换时,就像一个人在不同环境下使用不同的思维方式。研究团队发现,混合注意力架构在这种切换过程中会出现细微但关键的精度差异,导致AI在实际使用时的表现与训练时不一致。

这个问题的解决方案看似简单,但需要深度的技术洞察。团队通过逐层分析发现,问题的根源在于模型最后输出层的计算精度。他们将这一层的计算精度从16位提升到32位,成功解决了训练和推理之间的不一致问题。这种精度提升将训练和推理概率的相关性从0.987提升到0.997,看似微小的改进实际上对模型性能产生了决定性影响。

另一个重要挑战是训练过程中的不稳定性。当AI生成越来越长的文本时,就像一个人进行长时间的思考,容易出现思维混乱或重复。M1模型在扩展到更长的生成长度时,经常会陷入重复循环,生成大量重复或无意义的内容。

数据策略:多样化环境中的全面训练

M1模型的卓越性能不仅来自先进的架构和算法,还得益于其精心设计的训练数据策略。研究团队构建了一个包含多种类型任务的综合训练环境,就像为AI创造了一个丰富多彩的学习世界。

在数学推理方面,团队收集了数十万道来自各种数学竞赛的高质量题目。这些题目涵盖了从基础代数到高等数学的各个难度级别,每道题目都配有标准答案和详细解题步骤。更重要的是,团队还使用了名为SynLogic的数据合成框架,自动生成了涵盖41种不同逻辑推理任务的训练数据,包括密码破解、数独游戏等需要复杂逻辑思维的题目。

在编程能力培养方面,研究团队从各大在线编程平台收集了大量真实的编程挑战题目。对于那些缺少测试用例的问题,他们使用AI自动生成了全面的测试套件,确保每个编程问题都有完整的验证标准。这种做法让AI能够学习真正实用的编程技能,而不仅仅是记忆代码模式。

最具创新性的是软件工程环境的构建。团队基于SWE-bench基准测试,创建了真实的软件开发沙盒环境。在这个环境中,AI需要理解GitHub上的真实软件问题报告,定位代码中的bug,提出修复方案,并通过实际的测试用例验证修复效果。这种训练方式让AI获得了处理现实世界软件工程问题的能力。

对于无法通过规则验证的通用任务,团队开发了生成式奖励模型(GenRM)来提供反馈。这个模型就像一个有经验的老师,能够评估AI回答的质量。特别重要的是,团队解决了奖励模型偏向长文本的问题。传统的奖励模型往往认为更长的回答就是更好的回答,但这显然不符合实际情况。研究团队通过在线监控和动态调整,确保奖励模型能够公正地评估回答质量,而不是简单地偏好冗长的文本。

性能突破:在关键任务上的卓越表现

M1模型在各种基准测试中的表现充分验证了其技术创新的价值。在AIME数学竞赛中,M1-80k模型取得了86.0%的准确率,在开源模型中排名第二,仅次于最新的DeepSeek-R1-0528模型。这个成绩特别令人印象深刻,因为AIME是面向高中生的高难度数学竞赛,即使是数学天才也很难在这种竞赛中取得如此高的准确率。

在编程能力测试方面,M1模型在LiveCodeBench上达到了65.0%的通过率,在FullStackBench上达到了68.3%的通过率。这些基准测试包含了从基础编程到复杂系统设计的各种真实编程挑战,M1模型的表现表明它具备了接近专业程序员的编程能力。

最引人注目的是M1模型在软件工程任务上的突破性表现。在SWE-bench Verified测试中,M1-80k模型达到了56.0%的成功率,这意味着它能够成功解决超过一半的真实GitHub软件问题。考虑到这些问题来自真实的开源项目,涉及复杂的代码库理解和精确的bug修复,这个成绩展现了AI在实际软件开发中的巨大潜力。

在长文本理解方面,M1模型的优势更加明显。在OpenAI的MRCR基准测试中,当处理128K长度的文本时,M1-40k模型达到了76.1%的准确率,甚至超越了OpenAI的o3模型。这种能力对于处理长文档、法律合同、技术规范等现实应用场景具有重要意义。

特别值得关注的是M1模型在工具使用方面的表现。在TAU-bench测试中,这个模型需要在动态对话中正确使用API工具,同时遵循特定的政策指导原则。M1-40k模型在航空公司场景中达到了60.0%的成功率,在零售场景中达到了67.8%的成功率,这些成绩甚至超越了Gemini 2.5 Pro等商业模型。

训练效率的惊人突破

M1模型不仅在性能上表现卓越,其训练效率更是实现了令人震惊的突破。传统的大模型训练往往需要数千张GPU卡和数月时间,成本动辄数百万甚至上千万美元。而MiniMax团队仅用512张H800 GPU,在3周时间内就完成了M1模型的完整强化学习训练,总成本仅约53.47万美元。

这种效率提升主要来自三个方面的创新。闪电注意力架构的本质优势使得训练过程中的计算量大幅减少,就像用高效的交通工具替代了步行,自然能够更快到达目的地。CISPO算法的优化让训练过程更加稳定和高效,避免了许多无效的训练步骤。精心设计的训练策略则确保了每一分计算资源都得到充分利用。

更令人印象深刻的是模型扩展过程的效率。研究团队首先训练了一个支持4万token生成长度的模型(M1-40k),然后通过渐进式扩展策略,将生成长度逐步扩展到8万token(M1-80k)。这种方法就像建造摩天大楼时先建好基础结构,然后逐层加高,比从零开始建造80层高楼要高效得多。

在扩展过程中,团队采用了阶段性的长度增加策略:从4万token开始,逐步扩展到4.8万、5.6万、6.4万、7.2万,最终达到8万token。每个阶段的转换都基于严格的指标监控,包括生成序列的困惑度收敛和输出长度的第99百分位数接近当前上下文窗口限制。这种精确控制确保了每个扩展步骤都是稳定和有效的。

至顶AI实验室洞见

应用层面上,M1模型支持100万token的长上下文处理能力,意味着AI可以一次性理解和处理相当于一本中等长度小说的文本量。这种能力在法律文档分析、医学病历审查、学术论文研究等领域具有革命性意义。

在软件开发领域,M1模型展现出的56%的真实GitHub问题解决成功率,预示着AI辅助编程即将进入新阶段。程序员可以将复杂的bug报告交给AI,让它自动定位问题、分析原因并提供修复方案。

在内容创作方面,M1模型的长文本生成能力为写作者提供了强大的工具。无论是小说创作、技术文档编写还是学术论文撰写,AI都能够保持长时间的逻辑一致性和文本质量。

技术层面上,通过创新的混合注意力架构和高效的训练算法,M1模型在保持卓越性能的同时显著降低了计算成本,使得长时间深度推理成为可能。

M1模型证明了AI可以在效率和能力之间找到完美的平衡点。Flash Attention和CISPO算法的成功应用为未来的AI架构设计提供了新的思路。

MiniMax加入DeepSeek和Qwen模型的开源阵营中,为中国形成全球AI影响力再添强劲动力。有外国网友惊呼:开源模型排名靠前的开源模型都是中国模型!

论文地址:https://arxiv.org/abs/2506.13585

模型地址:https://huggingface.co/MiniMaxAI/MiniMax-M1-80k

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:MiniMax-M1模型的闪电注意力Flash Attention是什么?有什么特别之处?

A:闪电注意力Flash Attention是一种新型的注意力机制,就像给AI配备了智能的注意力管理器。传统AI需要同时关注所有信息,信息越多负担越重,而闪电注意力能够高效地在大量信息中快速定位关键点,避免不必要的计算浪费。这让AI在处理长文本时效率大幅提升,生成10万token时只需传统模型25%的计算量。

Q2:M1模型会不会取代人类程序员或数学家?

A:目前不会完全取代,但会成为强有力的辅助工具。M1模型在GitHub真实问题上有56%的解决成功率,在数学竞赛中达到86%的准确率,这表明它已具备接近专业水平的能力。不过,它更像是一个高效的助手,能够处理重复性工作、提供解题思路,让人类专业人士专注于更具创造性的任务。

Q3:如何使用MiniMax-M1模型?

A:由于M1模型完全开源,技术人员可以通过GitHub或Hugging Face下载使用。模型已支持vLLM和Transformers框架,MiniMax还提供了商业API服务(minimax.io)。不过,运行完整模型需要较强的计算资源,普通用户更可能通过基于该模型开发的应用服务来体验其能力。

相关内容

热门资讯

普及一下“福州十八扑外挂透明挂... 【无需打开直接搜索微信;3696223】 操作使用教程:1.亲,实际上福州十八扑是可以开挂的,确实有...
重磅揭秘“牛魔王有挂吗果然有挂... 亲,牛魔王这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是...
玩家实测“贝众乐游究竟有没有挂... 玩家实测“贝众乐游究竟有没有挂”!确实是能开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅...
必备科技“贝众乐游如何提高胜率... 您好,贝众乐游这款游戏可以开挂的,确实是有挂的,通过微信【3696223】很多玩家在这款游戏中打牌都...
盘点实测十款“小南长牌到底有没... 您好:小南长牌这款游戏可以开挂,确实是有挂的,需要软件加微信【3696223】很多玩家在这款游戏中打...