1.6B token，1290条均衡序列：蚂蚁开源QuitoBench，辅助AI精确洞察未来_学习资源

1.6B token，1290条均衡序列：蚂蚁开源QuitoBench，辅助AI精确洞察未来

创始人

2026-04-03 17:25:32

你可能没有意识到，但时间序列预测早已渗透到日常生活的方方面面。

打开手机看天气预报，背后是气象序列的预测；双十一零点抢购不卡顿，靠的是提前预测流量峰值来做服务器扩容；基金 App 里的收益走势图，背后也离不开金融时间序列的建模。简单来说，时间序列预测就是让机器根据过去的数据，判断接下来会发生什么。从能源调度到风险预警，几乎所有需要"提前做准备"的场景都离不开它，是 AI 落地最广、最刚需的能力之一。

近些年，时序预测的模型从 MLP 和 Transformer 两大架构的龙争虎斗，到 Chronos、TimesFM、TiRex 等时序大模型的异军突起，各类深度学习模型架构与基模不断涌现。

模型越来越多，但一个尴尬的问题也随之浮出水面：我们到底该怎么判断，哪个模型真的更强？

做过时序预测的人大概都有过类似的经历。你在 ETT、Weather、Traffic 这些经典数据集上跑出了不错的数字，信心满满地准备上线。结果一换到自己的业务数据，指标大幅跳水。你以为是代码的问题，排查一圈之后发现——代码没问题，问题出在评测本身。

这不是个例，而是整个时序预测领域长期面对的一个系统性困境。

考卷出了问题，分数还能信吗？

如果把模型评测比作考试，那现在时间序列领域的这张"考卷"，至少有四个不及格的地方。

第一，没有统一的考卷。NLP 有 GLUE，视觉有 ImageNet，但时间序列预测至今没有一个被广泛认可的标准评测基准。研究者各自拼凑一组数据集跑实验，结果难以横向比较。

第二，考卷严重偏科。现有 benchmark 的数据分布高度集中。论文分析了两个当前主流的大规模 benchmark：GIFT-Eval 有 50.7% 的序列落在同一类 regime 里，Timer 更甚，达到 65.8%。这意味着什么？模型只要在这一类"主流题型"上表现好，总分就不会差——但这不代表它真正全面。就像一张数学试卷 70% 都是计算题，你很难从总分看出谁的几何更好。

第三，考生可能提前看过答案。当前很多时序 foundation model 的预训练语料规模庞大，而公开 benchmark 被反复复用多年。测试集是否已经被模型在预训练阶段间接"见过"？这种数据泄漏风险，正在悄悄侵蚀评测的可信度。

第四，题目太简单，区分不出真实水平。很多经典数据集的序列长度偏短，GIFT-Eval 中 50% 的序列不到 200 个时间步。这对于今天动辄要做 long-context forecasting 的模型来说，根本评不出真正的能力上限。

这些问题叠加在一起，造成了一个后果：排行榜上的名次，未必反映模型的真实能力。论文刷出来的 SOTA，换个场景可能就不 work 了。

现在，蚂蚁集团正式开源 Quito 与 QuitoBench，尝试重新出一张更公平的考卷。

项目地址：

● Website：https://hq-bench.github.io/quito/[1]

● Hugging Face：https://huggingface.co/datasets/hq-bench/quitobench[2]

16 亿 token 的工业级语料，不只是"更大"

这次开源包含两个核心部分。

第一个是 Quito，一个来自真实生产环境的大规模时间序列语料库。数据来源于 Alipay 平台的应用流量，覆盖金融、电商、广告、基础设施、风控、IoT 等 9 个业务垂类——不是实验室里仿造的数据，而是每天真正在跑的生产系统。

规模上，Quito 包含两个子集：Quito-Min（22,522 条序列，10 分钟粒度，约 7 亿 token）和 Quito-Hour（12,544 条序列，1 小时粒度，约 10 亿 token），总规模达到 1.6B tokens。序列统一较长，最短也有 5,904 个时间步，足以支撑 context length 从 96 到 1024 的全范围评测。

更关键的是数据来源的"干净"。Quito 来自单一专有工业环境，与任何公开预训练语料零重叠。这从根源上杜绝了数据泄漏的可能——无论模型的预训练语料有多大，都不可能在训练阶段"见过"这些测试数据。

不按行业分，按"难不难预测"分

第二个核心部分是 QuitoBench，从 Quito 中进一步构建的评测基准。它最大的创新不在于规模，而在于组织方式。

传统 benchmark 按应用领域分组：交通、电力、天气。但领域标签其实是个很粗糙的分类方式。同样是交通数据，有的序列周期性极强，几乎可以"闭眼预测"；有的则充满突发脉冲和噪声，任何模型都会挣扎。把它们扔进同一个"交通"桶里评测，掩盖的信息远比暴露的多。

QuitoBench 换了一个思路：按时间序列本身的统计特征来分类。具体来说，每条序列沿三个维度打标签——趋势强度（Trend）、季节性强度（Seasonality）、可预测性（Forecastability）。三个维度各分高低，组合出 2³ = 8 类 TSF Regime。

然后在这 8 个格子里做近乎均衡的采样，最终得到 1,290 条测试序列，每类占比 10.5%–13.2%。对比 GIFT-Eval 和 Timer 动辄 50%–65% 集中在单一 regime 的情况，QuitoBench 的均衡程度是质的飞跃。

这种设计的好处很直观：模型不能再靠"刷主流题型"上分了。aggregate metric 反映的是真实的全场景能力，而不是对某一类数据的过拟合。同时，研究者可以按 regime 做细粒度诊断——你的模型到底是在哪类序列上翻车的，一目了然。

232,200 个评测实例，10 个模型，四个意外发现

作者在 QuitoBench 上评测了 10 个代表性模型，横跨深度学习（CrossFormer、DLinear、iTransformer、PatchTST、TSMixer）、foundation model（Chronos-2、TimesFM-2.5、TiRex）和统计基线（Exponential Smoothing、Seasonal Naive）三大类。

实验覆盖 3 种 context length × 3 种 forecast horizon × 2 种预测模式 = 18 种任务配置，在 1,290 条序列上共产生 232,200 个评测实例。每个模型需要生成约 1600 万次预测——这个评测密度，在时序领域相当罕见。

结果揭示了几个颇具实践意义的发现。

发现一：Context length 是模型选型的分水岭。当历史窗口较短（L=96）时，深度学习模型全面领先；但当窗口拉长到 L≥576，foundation model 开始反超，到 L=1024 时优势进一步扩大。这说明，模型选型不能只看"谁的指标最好"，还要看你的业务场景能提供多长的历史数据。历史短，用小模型；历史长，foundation model 的预训练知识才能真正发挥出来。

发现二：可预测性，才是决定难度的关键。在 Trend、Seasonality、Forecastability 三个维度中，Forecastability 对预测误差的影响最大。高可预测性序列的平均 MAE 为 0.278，低可预测性序列为 0.505，差距 1.81 倍。最容易和最困难的 regime 之间，误差差距更是达到 3.64 倍。这也从数据层面验证了 QuitoBench"按统计特征分类"的设计逻辑——行业标签做不到的事，TSF Regime 做到了。

发现三：1M 参数的小模型，打赢了 200M 的大模型。总榜第一名是 CrossFormer，参数量约 1M。而它击败的对手包括 Chronos-2（~100M）和 TimesFM-2.5（~200M）。平均而言，深度学习模型在参数量少 59 倍的前提下，达到了接近甚至更好的效果。对于资源受限、推理成本敏感的工程场景，这是一个非常实际的结论：大不一定好，小而专可能更强。

发现四：加数据比加参数更有效。作者做了 scaling 实验，分别沿"训练数据量"和"模型参数量"两条轴扩展。结论很明确：无论深度学习还是 foundation model，增加训练数据带来的收益都显著大于增加模型参数。CrossFormer 的训练数据从 10K 扩展到 100M token，MAE 下降了 66%；而参数量扩展到 1M 以上后，收益就开始趋于平台期。对时序领域来说，这意味着：与其追求更大的模型，不如先把数据做好。

上一篇：金宏气体涨5.38%，开源证券一日前给出“买入”评级

下一篇：谷歌发布Gemma 4开源大模型提供四种规格通用模型

1.6B token，1290条均衡序列：蚂蚁开源QuitoBench，辅助AI精确洞察未来

相关内容

热门资讯