2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M_学习资源

2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

创始人

2025-11-12 21:16:26

机器之心发布

机器之心编辑部

提到 AI 的突破，人们首先想到的往往是大语言模型（LLM）：写代码、生成文本、甚至推理多模态内容，几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上，这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。然而，无论是直接微调 LLM，还是采用专门为表格设计的深度架构（如 TabNet、SAINT、FT-Transformer），其性能在多数真实场景下仍难以超越 XGBoost、CatBoost 等传统梯度提升方法。

这引出一个尖锐的问题：为什么在非结构化数据上所向披靡的现代深度学习，在结构化数据建模中却长期陷入瓶颈？

直指这个核心问题，清华大学崔鹏团队做出了他们的回应 ——LimiX。

不同于其他模型只能进行一种下游任务，LimiX-2M 在同时支持分类、回归、缺失值插补等任务的前提下，以仅有 2M 的模型参数超越了包括 XGBoost、CatBoost 在内的经典模型，并在与 AutoGluon 和 TabPFN 的对比中展示出显著优势，仅次于 LimiX 前期发布的 LimiX-16M。

LimiX 的开源使中国在表格建模领域的研究真正站到了世界的最前沿，力压 Amazon AWS，Inria 等一系列顶尖机构在诸多性能测试上登顶！仅仅 2M 的模型体量使得快速微调和工程适配成为可能，为各领域研究和工业应用提供了无限可能。

技术报告标题：LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence
报告地址：https://arxiv.org/abs/2509.03505
项目地址：https://www.limix.ai/
Github：https://github.com/limix-ldm/LimiX
Huggingface：https://huggingface.co/stable-ai

2M 参数量，LimiX 有多强？

11 个权威评测基准上的平均性能表现，LimiX-2M 仅次于 LimiX-16M，位列第二

如图所示，在 11 个权威综合性能评测中，LimiX 凭借强大的 zero-shot 能力强势领跑：其 LimiX-16M 与 LimiX-2M 版本包揽分类任务冠亚军，一举超越业界标杆 AutoGluon，并大幅甩开其他基于上下文学习的基础模型与传统树模型。

在基准数据集 BCCO-CLS 上的分类性能对比，只展示了部分最优模型，完整表格参阅技术报告

在基准数据集 CTR23 上的回归性能对比，只展示了部分最优模型，完整表格参阅技术报告

上图展示了 LimiX-2M 在 BCCO 和 CTR23 上的测试结果：在分类任务中，LimiX-16M 和 LimiX-2M 包揽前二。在回归任务中，LimiX-16M 依旧稳居榜首；LimiX-2M 紧随 LimiX-16M 和 AutoGluon，力压众多模型，位列第三。值得注意的是 —— 这一切成绩均在无任何任务特定微调的前提下达成！

除了 “开箱即用” 模式之外，LimiX 还可以通过微调进一步提高模型表现。作为对比，我们把 LimiX-2M 和最新的 PFN-V2.5 都在 analcatdata_apnea2 数据集上进行微调，并统计微调前后的 AUC 和消耗的时间。微调后，模型的 AUC 相较于微调之前提升 11.4%，同时所需要的时间只相当于 PFN-V2.5 的 60%。

值得一提的是，尽管本对比实验在 H20 上完成，但 LimiX-2M 可以在消费级显卡 RTX4090 上进行微调，而 PFN-V2.5 需要更大显存的显卡，LimiX 作为基础模型显然更加科研友好。

让科研回归创造，让技术成为助力

LimiX-2M 作为一个高效、灵活、可靠的算法架构，让研究人员不再受困于算力与工程难题，而是专注于科学问题本身。其轻量、易用、可落地的特点，使最前沿的 AI 技术触手可及，大大降低了使用门槛，加速了想法的验证与共享：

开箱即用，告别适配：LimiX 基于上下文学习，无需训练或调参，自动完成数据预处理，让非专业人士也能立刻上手；
一模多能，科研的 “瑞士军刀”：单模型通吃分类、回归、插补等多任务，跨学科研究无缝切换，告别繁琐的模型管理；
小样本友好，挖掘珍贵数据价值：在医学、生物等小样本场景下高效泛化，从有限数据中榨取最大的分析价值；
可解释可追溯，打开模型 “黑盒”：通过检索机制揭示预测依据，提升透明度，助力理论验证与可信分析；
低算力运行，资源友好的科研工具：轻量设计支持普通电脑流畅运行，让小型团队也能低成本开展前沿 AI 实验；
本地可部署，隐私与合规双保险：完全离线运行，保障敏感数据安全，满足医疗、国防等高合规场景需求。

轻量模型的 “屠龙术”

1. LimiX 模型是怎么练成的？

LimiX 的模型结构：LimiX 的设计基于 Transformer 架构，并针对结构化数据建模进行了优化。模型首先对特征与目标分别进行 embedding，在主模块中通过样本维度与特征维度的双重注意力机制，聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头，从而同时支持回归与分类任务。

LimiX 的训练数据： LimiX 在预训练中完全依赖生成数据，而非真实世界数据。为确保生成过程的高效与可控，模型采用基于结构因果图（SCG）的数据生成方式：初始样本在有向无环图上传播，通过边映射与节点交互模拟真实因果依赖关系，再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性，又提升了可控性与泛化能力。

掩码重构机制：LimiX 对数据的联合分布进行建模，以提高模型的通用性、增强对特征交互模式的建模能力。具体地，LimiX 模型在模型优化目标设计中加入了掩码重构机制：在训练过程中，通过对数据进行随机掩码操作，模型将根据特征间的因果依赖关系，使用观测到的数据来重构缺失数据。

2. 核心更新：RBF 嵌入层（RaBEL）

LimiX-2M 仅有 1.94M 参数量，是 LimiX-16M 的八分之一，却在多个数据集基准上取得强劲、接近 LimiX-16M 的性能表现。

它的核心革新不是 “剪枝” 或 “蒸馏”，而是一次从嵌入层重新出发的结构性更新：引入 RBF（Radial Basis Function）数值嵌入机制。

瓶颈诊断：线性嵌入的 “低秩塌陷”：在 TabPFN-v2、LimiX-16M 乃至早期 FT-Transformer、TabTransformer 等架构中，数值输入通常采用 “线性映射 + 列 ID” 方案：

这种设计虽然简单高效，但存在一个系统性的问题 —— 我们称之为 “低秩塌陷”。具体来说就是：

模型浅层激活高度相关，特征矩阵在奇异值分解后仅保留个位数有效秩（能提取的有效特征种类非常有限）；
网络早期几乎处于 “线性近似” 状态，很难分辨出数据中更复杂的局部变化、分段趋势或者特殊分布；
梯度利用率极低，使得后续层在优化中浪费大量表达能力。

如下图所示，基于 RBF 嵌入的 LimiX-2M 有效秩很高，而 TabPFN-v2 在前几层的秩明显偏低，并且有很大差距。这说明在模型规模相当的情况下，RBF 嵌入能够为网络提供更丰富、更多样的表示基础。

为了解决嵌入矩阵秩受限这一问题，我们引入了 RaBEL（Radial Basis Embedding Layer），其核心思想是：在嵌入阶段就引入非线性表达能力，而非依赖后续层 “补救”。

结果是非线性特征在嵌入阶段提前形成，浅层即可识别非平滑关系，从根本上解决低秩问题。

在科研探索与实际应用结合日益紧密的今天，LimiX-2M 的推出恰逢其时。它成功实现了轻量化与性能的理想兼顾，在大幅度降低了显存占用和消耗时间的基础上，保持前代 LimiX-16M 同时支持分类、回归、缺失值插补等多样化能力，性能远超现有其它表格模型。无论是普通实验室工作站，还是端侧设备、移动终端，LimiX-2M 都能轻松部署。这样的设计让先进的 AI 能力更加普惠，帮助科研团队更高效地探索、验证和落地成果，打通从研究到落地的 “最后一公里”，让前沿算法能无缝迁移至真实世界，创造出切实的科研与应用价值。

上一篇：互联网被AI“污染”成什么样了？

下一篇：弘信电子：依托“ALL IN AI”战略转型

2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

相关内容

热门资讯