近日,美团正式推出了预热已久的龙猫大模型LongCat-Flash-Chat,并在GitHub、Hugging Face等平台上同步开源。这家被大众熟知的本地生活巨头,第一次把5600亿参数的混合专家模型(MoE)放在聚光灯下,让业界看到了它在AI赛道的“进攻姿态”。
30天完成20万亿token训练、单卡100+token/s的推理速度、每百万token仅0.7美元的成本......龙猫大模型不仅多方面的性能与业界顶尖模型(如DeepSeek V3.1,Qwen3、GPT 4.1等)旗鼓相当,部分领域甚至还实现了超越,引发开源社区内外的大量关注。
架构创新,把计算资源用在“刀刃”上
龙猫大模型之所以性能强悍,一个关键的原因在于它通过架构创新,实现了对计算资源的高效利用。也就是说,它一系列亮眼表现背后,是把计算资源分配在了最需要的位置。
比如,龙猫在MoE模块中引入了“零计算专家机制”(Zero-Computation Experts),它可以动态分配计算资源,把类似“的、了”、“标点”等常见的词汇和低信息token分配给“零计算专家”,该“专家”不用进行复杂运算,而是直接返回输出,极大节省了算力。
在这种机制下,龙猫大模型虽有5600亿参数,但处理每个任务时并不需要全部激活,而是仅需动态激活186亿至313亿参数(平均约270亿),实现了成本与效率的高度平衡。
另外,MoE模型虽然能实现计算负载均衡,但复杂的混合并行策略,让不同“专家”模块之间的通信需求骤增,而通信延迟往往会形成“通信墙”,成为提升模型训推性能的瓶颈。
龙猫大模型的解决办法是,引入“快捷连接混合专家”(Shortcut-connected MoE,ScMoE)机制,这种机制可以有效扩大计算和通信的重叠窗口,让不同“专家”模块改变之前计算完再通信的串行模式,而是可以计算和通信并行,显著提升了大模型训推的吞吐量。
为了不仅能“聊天”,还能成为智能体解决复杂问题,龙猫大模型完成了面向智能体能力的多阶段训练。该流程包括基座模型训练,增强推理与编码能力的中期训练,以及专注于对话和工具使用能力的后训练,使其在执行调用工具、与环境交互的复杂任务时表现出色。
性能追平顶尖大模型,速度快的飞起
单卡100+token/s的推理速度、每百万token仅0.7美元的成本、支持128k的长文本上下文......这些数据,直观反映了龙猫大模型低成本、高性能的强悍实力。
简单实测就会发现,龙猫大模型的推理速度要明显快于DeepSeek、Kimi、Qwen3等市面上常见的主流模型,并且龙猫大模型还拥有强大的Agent能力,让它写个爬虫脚本,不仅代码写得专业,还会提示技术和法律风险,推荐学习资源,分析数据也可以实现图文并茂。
在开源社区中,龙猫大模型直接亮出了自己与同行的详细性能对比,它在多个方面追平了行业翘楚(如DeepSeek V3.1、Qwen3、Kimi-K2、GPT 4.1等),某些方面还实现了超越。
比如在衡量模型综合知识水平的核心指标(MMLU/MMLU-Pro)中,龙猫大模型的得分是89.71和82.68,与DeepSeek V3.1、Qwen3 MoE、Kimi-K2、GPT 4.1和Claude4 Sonnet等行业顶尖大模型均不相上下,反映了龙猫扎实的基础知识和推理能力。
再比如在指令遵循(Instruction Following)的三个指标中,龙猫大模型得分均超越了DeepSeek V3.1、Qwen3 MoE、Kimi-K2和GPT 4.1等模型,反映了多阶段训练的成果。
ArenaHard-V2更侧重模型作为聊天助手的“体感”和处理复杂指令的能力,龙猫大模型的得分为86.50,超过DeepSeek V3.1,与Qwen3 MoE的88.20非常接近。而作为中文领域的权威测试,龙猫在CEval上的得分为90.44,在CMMLU上也保持了第一梯队水平。
首秀就有如此优秀的表现,让外界不禁好奇龙猫大模型是在什么硬件平台上训练的?美团技术报告披露的信息是,龙猫大模型是在数万个加速器(tens of thousands of accelerators)上完成训练的,但并未给出具体硬件厂商的名字。
需要指出的是,无论基于哪种硬件平台,在30天内就能完成20万亿token的训练,足以说明美团技术团队有能力在复杂的约束条件下,深入底层去解决核心的系统工程问题。
自研大模型,美团AI战略落地的必然
抛开技术层面,大家更关心的是,美团作为一家本地生活巨头,为何要斥巨资研发大模型?
进军大模型的思考,美团CEO王兴其实在3月的年报业绩会上做出过解答。他当时强调,AI将改变和颠覆所有行业,我们对此感到兴奋。作为一家将线下业务与线上世界连接起来的公司,“我们将利用所拥有的一切去尝试进攻,主动在AI方面实现我们的领先地位。”
当时王兴把美团AI战略解构为三个方面:首先是工作中的AI(AI at Work),用以提升内部员工的生产力;其次是产品中的AI(AI in Products),用AI升级现有服务,并推出全新AI原生产品;最后是这一切的基石,就是构建美团自己的大语言模型(Building LLM)。
龙猫大模型的诞生,可以说是美团AI战略落地的必然。就业务本身来说,美团的本地生活涉及的物流、服务业都有着劳动力密集、高频互动的特点,都属于AI改造潜力很大的领域。对于美团来说,无论是战略防御还是更积极的态度,大模型都是必须要做的事情。
市场上虽然也有不少开源模型,但无论多么强大,都无法媲美美团对垂直场景的理解和近乎100%的执行可靠性。因此唯一的路径,就是训练一个从诞生之初就浸泡在美团自身数据和业务逻辑中的模型,一个高可靠性的模型,这也是龙猫大模型被创造出来的核心原因。
目前,龙猫大模型LongCat-Flash-Chat,已经发布在Hugging Face和Githiub开源社区,并遵循MIT许可协议。这场本地生活巨头对AI的深度拥抱,让全球学术界和产业界的研究者、开发者也都可以自由使用和探索龙猫这个强大的模型,共同推动AI技术的发展。