F2LLM-v2开源:让语言不再是障碍,让AI触手可及
创始人
2026-03-28 16:55:02

在 RAG(检索增强生成)、语义搜索和大规模数据分析的浪潮中,嵌入模型(Embedding Model)是不可或缺的底层基石。然而,当前的 Embedding 研究正面临两大挑战:

  1. 英语中心化偏见:多数模型在英文以及中文上表现强悍,但在其他中低资源语言上力不从心。
  2. 透明度鸿沟:顶尖模型(如 Gemini、Qwen3-Embedding 等)多为闭源 API 或仅开放权重,其训练数据和方法论往往秘而不宣,严重阻碍了开源社区的复现与进化。

针对这些痛点,蚂蚁集团联合上海交通大学正式发布并开源了 F2LLM-v2。这不仅是一个性能霸榜的工具,更是对“开源透明”和“语言普惠”的一次深度践行。

开源地址:

  • GitHub:https://github.com/codefuse-ai/CodeFuse-Embeddings[1]
  • Hugging Face:https://huggingface.co/collections/codefuse-ai/f2llm[2]
1. 真正的“全开源”:数据、代码、检查点全量交付

与市面上许多闭源接口或黑盒模型不同,F2LLM 团队始终坚持开源精神。

这一次,团队精心构建了一个包含6000万高质量样本的训练语料库,涵盖282种自然语言和40多种编程语言。最重要的是,这些数据全部源自公开资源,且团队公开了完整的训练配方、中间检查点以及相关代码。

这种全方位透明度不仅方便研究者复现,更为全球开发者构建真正包容、多语种的 AI 应用提供了肥沃的土壤。

2. 霸榜 11 项 MTEB,定义多语言 SOTA

F2LLM-v2 在 MTEB(最权威的大规模文本嵌入评测基准)上的表现堪称惊艳。其14B与8B版本在 11 个 MTEB 分支榜单上摘得桂冠。

无论是欧洲语言、斯堪的纳维亚语系,还是波斯语、越南语等中低资源语言,F2LLM-v2 均刷新了 SOTA 记录。特别是在代码搜索领域,F2LLM-v2 延续了 CodeFuse 家族的强项,与团队数月前开源的代码专用嵌入模型 C2LLM 并列第一,成为开发者构建智能化代码库检索的首选。

3. 全尺寸布局:从 80M 到 14B 的极致覆盖

为了适应从边缘设备到大型数据中心的全场景需求,F2LLM-v2 推出了8 种不同尺寸的模型:

  • 轻量级(80M / 160M / 330M):适用于对延迟极其敏感的终端应用。
  • 主流级(0.6B / 1.7B / 4B):兼顾性能与效率。
  • 重型(8B / 14B):为企业级检索系统提供最高精度的语义表征。

值得关注的是,通过模型剪枝和知识蒸馏技术,小尺寸模型在推理效率大幅提升的同时保留了强大性能,打破了“小模型无高性能”的迷思。

同时,F2LLM-v2 家族的所有模型均支持套娃式表征,任意截取输出嵌入的开头维度即可获得接近全维度的性能。这为开发者在存储成本和检索速度之间提供了极大的灵活权衡空间。

4. 结语:共同打造一个更包容、更透明的 AI 世界

F2LLM-v2 不仅仅是一个技术报告中的数字,它代表了开源社区的一种力量——不依赖封闭数据与技术,依然能做出世界顶级性能的模型。

相关内容

热门资讯

前沿聚焦:AI如何重塑房地产? 2026年3月26日,由中国企业评价协会、清华大学房地产研究所、北京中指信息技术研究院主办,北京中指...
F2LLM-v2开源:让语言不... 在 RAG(检索增强生成)、语义搜索和大规模数据分析的浪潮中,嵌入模型(Embedding Mode...
2026深度测评:从温州出发去... 2026深度测评:从温州出发去美国旅游,这5家旅行社谁才是真正的“隐形冠军”? 随着中美航线加密和签...
原创 景... 你最近出去逛街或者旅游,有没有一种特别强烈的感受? 花了大几千块钱跑到外地一个著名的风景区,结果迎面...
天津古文化街 天津古文化街 第五日上午,游览天津古文化街。 天津我在十多年前来过两次,第一次因公考察,单位七八...