F2LLM-v2开源：让语言不再是障碍，让AI触手可及_学习资源

创始人

2026-03-28 16:55:02

在 RAG（检索增强生成）、语义搜索和大规模数据分析的浪潮中，嵌入模型（Embedding Model）是不可或缺的底层基石。然而，当前的 Embedding 研究正面临两大挑战：

英语中心化偏见：多数模型在英文以及中文上表现强悍，但在其他中低资源语言上力不从心。
透明度鸿沟：顶尖模型（如 Gemini、Qwen3-Embedding 等）多为闭源 API 或仅开放权重，其训练数据和方法论往往秘而不宣，严重阻碍了开源社区的复现与进化。

针对这些痛点，蚂蚁集团联合上海交通大学正式发布并开源了 F2LLM-v2。这不仅是一个性能霸榜的工具，更是对“开源透明”和“语言普惠”的一次深度践行。

开源地址：

GitHub:https://github.com/codefuse-ai/CodeFuse-Embeddings[1]

Hugging Face:https://huggingface.co/collections/codefuse-ai/f2llm[2]

1. 真正的“全开源”：数据、代码、检查点全量交付

与市面上许多闭源接口或黑盒模型不同，F2LLM 团队始终坚持开源精神。

这一次，团队精心构建了一个包含6000万高质量样本的训练语料库，涵盖282种自然语言和40多种编程语言。最重要的是，这些数据全部源自公开资源，且团队公开了完整的训练配方、中间检查点以及相关代码。

这种全方位透明度不仅方便研究者复现，更为全球开发者构建真正包容、多语种的 AI 应用提供了肥沃的土壤。

2. 霸榜 11 项 MTEB，定义多语言 SOTA

F2LLM-v2 在 MTEB（最权威的大规模文本嵌入评测基准）上的表现堪称惊艳。其14B与8B版本在 11 个 MTEB 分支榜单上摘得桂冠。

无论是欧洲语言、斯堪的纳维亚语系，还是波斯语、越南语等中低资源语言，F2LLM-v2 均刷新了 SOTA 记录。特别是在代码搜索领域，F2LLM-v2 延续了 CodeFuse 家族的强项，与团队数月前开源的代码专用嵌入模型 C2LLM 并列第一，成为开发者构建智能化代码库检索的首选。

3. 全尺寸布局：从 80M 到 14B 的极致覆盖

为了适应从边缘设备到大型数据中心的全场景需求，F2LLM-v2 推出了8 种不同尺寸的模型：

值得关注的是，通过模型剪枝和知识蒸馏技术，小尺寸模型在推理效率大幅提升的同时保留了强大性能，打破了“小模型无高性能”的迷思。

同时，F2LLM-v2 家族的所有模型均支持套娃式表征，任意截取输出嵌入的开头维度即可获得接近全维度的性能。这为开发者在存储成本和检索速度之间提供了极大的灵活权衡空间。

4. 结语：共同打造一个更包容、更透明的 AI 世界

F2LLM-v2 不仅仅是一个技术报告中的数字，它代表了开源社区的一种力量——不依赖封闭数据与技术，依然能做出世界顶级性能的模型。