2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M
创始人
2025-11-12 21:16:26

机器之心发布

机器之心编辑部

提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。然而,无论是直接微调 LLM,还是采用专门为表格设计的深度架构(如 TabNet、SAINT、FT-Transformer),其性能在多数真实场景下仍难以超越 XGBoost、CatBoost 等传统梯度提升方法。

这引出一个尖锐的问题:为什么在非结构化数据上所向披靡的现代深度学习,在结构化数据建模中却长期陷入瓶颈?

直指这个核心问题,清华大学崔鹏团队做出了他们的回应 ——LimiX。

不同于其他模型只能进行一种下游任务,LimiX-2M 在同时支持分类、回归、缺失值插补等任务的前提下,以仅有 2M 的模型参数超越了包括 XGBoost、CatBoost 在内的经典模型,并在与 AutoGluon 和 TabPFN 的对比中展示出显著优势,仅次于 LimiX 前期发布的 LimiX-16M。

LimiX 的开源使中国在表格建模领域的研究真正站到了世界的最前沿,力压 Amazon AWS,Inria 等一系列顶尖机构在诸多性能测试上登顶!仅仅 2M 的模型体量使得快速微调和工程适配成为可能,为各领域研究和工业应用提供了无限可能。

  • 技术报告标题:LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence
  • 报告地址:https://arxiv.org/abs/2509.03505
  • 项目地址:https://www.limix.ai/
  • Github:https://github.com/limix-ldm/LimiX
  • Huggingface:https://huggingface.co/stable-ai

2M 参数量,LimiX 有多强?

11 个权威评测基准上的平均性能表现,LimiX-2M 仅次于 LimiX-16M,位列第二

如图所示,在 11 个权威综合性能评测中,LimiX 凭借强大的 zero-shot 能力强势领跑:其 LimiX-16M 与 LimiX-2M 版本包揽分类任务冠亚军,一举超越业界标杆 AutoGluon,并大幅甩开其他基于上下文学习的基础模型与传统树模型。

在基准数据集 BCCO-CLS 上的分类性能对比,只展示了部分最优模型,完整表格参阅技术报告

在基准数据集 CTR23 上的回归性能对比,只展示了部分最优模型,完整表格参阅技术报告

上图展示了 LimiX-2M 在 BCCO 和 CTR23 上的测试结果:在分类任务中,LimiX-16M 和 LimiX-2M 包揽前二。在回归任务中,LimiX-16M 依旧稳居榜首;LimiX-2M 紧随 LimiX-16M 和 AutoGluon,力压众多模型,位列第三。值得注意的是 —— 这一切成绩均在无任何任务特定微调的前提下达成!

除了 “开箱即用” 模式之外,LimiX 还可以通过微调进一步提高模型表现。作为对比,我们把 LimiX-2M 和最新的 PFN-V2.5 都在 analcatdata_apnea2 数据集上进行微调,并统计微调前后的 AUC 和消耗的时间。微调后,模型的 AUC 相较于微调之前提升 11.4%,同时所需要的时间只相当于 PFN-V2.5 的 60%。

值得一提的是,尽管本对比实验在 H20 上完成,但 LimiX-2M 可以在消费级显卡 RTX4090 上进行微调,而 PFN-V2.5 需要更大显存的显卡,LimiX 作为基础模型显然更加科研友好。

让科研回归创造,让技术成为助力

LimiX-2M 作为一个高效、灵活、可靠的算法架构,让研究人员不再受困于算力与工程难题,而是专注于科学问题本身。其轻量、易用、可落地的特点,使最前沿的 AI 技术触手可及,大大降低了使用门槛,加速了想法的验证与共享:

  • 开箱即用,告别适配:LimiX 基于上下文学习,无需训练或调参,自动完成数据预处理,让非专业人士也能立刻上手;
  • 一模多能,科研的 “瑞士军刀”:单模型通吃分类、回归、插补等多任务,跨学科研究无缝切换,告别繁琐的模型管理;
  • 小样本友好,挖掘珍贵数据价值:在医学、生物等小样本场景下高效泛化,从有限数据中榨取最大的分析价值;
  • 可解释可追溯,打开模型 “黑盒”:通过检索机制揭示预测依据,提升透明度,助力理论验证与可信分析;
  • 低算力运行,资源友好的科研工具:轻量设计支持普通电脑流畅运行,让小型团队也能低成本开展前沿 AI 实验;
  • 本地可部署,隐私与合规双保险:完全离线运行,保障敏感数据安全,满足医疗、国防等高合规场景需求。

轻量模型的 “屠龙术”

1. LimiX 模型是怎么练成的?

LimiX 的模型结构:LimiX 的设计基于 Transformer 架构,并针对结构化数据建模进行了优化。模型首先对特征与目标分别进行 embedding,在主模块中通过样本维度与特征维度的双重注意力机制,聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头,从而同时支持回归与分类任务。

LimiX 的训练数据: LimiX 在预训练中完全依赖生成数据,而非真实世界数据。为确保生成过程的高效与可控,模型采用基于结构因果图(SCG)的数据生成方式:初始样本在有向无环图上传播,通过边映射与节点交互模拟真实因果依赖关系,再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性,又提升了可控性与泛化能力。

掩码重构机制:LimiX 对数据的联合分布进行建模,以提高模型的通用性、增强对特征交互模式的建模能力。具体地,LimiX 模型在模型优化目标设计中加入了掩码重构机制:在训练过程中,通过对数据进行随机掩码操作,模型将根据特征间的因果依赖关系,使用观测到的数据来重构缺失数据。

2. 核心更新:RBF 嵌入层(RaBEL)

LimiX-2M 仅有 1.94M 参数量,是 LimiX-16M 的八分之一,却在多个数据集基准上取得强劲、接近 LimiX-16M 的性能表现。

它的核心革新不是 “剪枝” 或 “蒸馏”,而是一次从嵌入层重新出发的结构性更新:引入 RBF(Radial Basis Function)数值嵌入机制。

瓶颈诊断:线性嵌入的 “低秩塌陷”:在 TabPFN-v2、LimiX-16M 乃至早期 FT-Transformer、TabTransformer 等架构中,数值输入通常采用 “线性映射 + 列 ID” 方案:

这种设计虽然简单高效,但存在一个系统性的问题 —— 我们称之为 “低秩塌陷”。具体来说就是:

  • 模型浅层激活高度相关,特征矩阵在奇异值分解后仅保留个位数有效秩(能提取的有效特征种类非常有限);
  • 网络早期几乎处于 “线性近似” 状态,很难分辨出数据中更复杂的局部变化、分段趋势或者特殊分布;
  • 梯度利用率极低,使得后续层在优化中浪费大量表达能力。

如下图所示,基于 RBF 嵌入的 LimiX-2M 有效秩很高,而 TabPFN-v2 在前几层的秩明显偏低,并且有很大差距。这说明在模型规模相当的情况下,RBF 嵌入能够为网络提供更丰富、更多样的表示基础。

为了解决嵌入矩阵秩受限这一问题,我们引入了 RaBEL(Radial Basis Embedding Layer),其核心思想是:在嵌入阶段就引入非线性表达能力,而非依赖后续层 “补救”。

结果是非线性特征在嵌入阶段提前形成,浅层即可识别非平滑关系,从根本上解决低秩问题。

在科研探索与实际应用结合日益紧密的今天,LimiX-2M 的推出恰逢其时。它成功实现了轻量化与性能的理想兼顾,在大幅度降低了显存占用和消耗时间的基础上,保持前代 LimiX-16M 同时支持分类、回归、缺失值插补等多样化能力,性能远超现有其它表格模型。无论是普通实验室工作站,还是端侧设备、移动终端,LimiX-2M 都能轻松部署。这样的设计让先进的 AI 能力更加普惠,帮助科研团队更高效地探索、验证和落地成果,打通从研究到落地的 “最后一公里”,让前沿算法能无缝迁移至真实世界,创造出切实的科研与应用价值。

相关内容

热门资讯

Meta拟贷款30亿美元建设A... AIPress.com.cn报道 4月5日消息,Meta正寻求约 30亿美元 的建设贷款,用于打造名...
春假带火“行走的课堂”,阿坝州... 春假接力清明 阿坝州文旅市场持续火热 “含娃量”直线飙升 研学游、文博游、亲子游等 各式春假主题活动...
抓住假期尾巴!去花溪来一场能量... 清明假期,春和景明 正是踏青出游好时节 也是亲子陪伴、寓教于乐的绝佳时机 跟着花溪亲子研学线路 涵盖...
雪山露营应该怎么穿才对? 雪山... 雪山露营应该怎么穿才对? 雪山露营装备排骨羽绒抖音商城大牌钜惠
雨天骑摩托到山里露营 这个国庆... 雨天骑摩托到山里露营 这个国庆不住酒店民宿住帐篷,主打该省省该花花 帐篷露营 听雨