你可能没有意识到,但时间序列预测早已渗透到日常生活的方方面面。
打开手机看天气预报,背后是气象序列的预测;双十一零点抢购不卡顿,靠的是提前预测流量峰值来做服务器扩容;基金 App 里的收益走势图,背后也离不开金融时间序列的建模。简单来说,时间序列预测就是让机器根据过去的数据,判断接下来会发生什么。从能源调度到风险预警,几乎所有需要"提前做准备"的场景都离不开它,是 AI 落地最广、最刚需的能力之一。
近些年,时序预测的模型从 MLP 和 Transformer 两大架构的龙争虎斗,到 Chronos、TimesFM、TiRex 等时序大模型的异军突起,各类深度学习模型架构与基模不断涌现。
模型越来越多,但一个尴尬的问题也随之浮出水面:我们到底该怎么判断,哪个模型真的更强?
做过时序预测的人大概都有过类似的经历。你在 ETT、Weather、Traffic 这些经典数据集上跑出了不错的数字,信心满满地准备上线。结果一换到自己的业务数据,指标大幅跳水。你以为是代码的问题,排查一圈之后发现——代码没问题,问题出在评测本身。
这不是个例,而是整个时序预测领域长期面对的一个系统性困境。
考卷出了问题,分数还能信吗?
如果把模型评测比作考试,那现在时间序列领域的这张"考卷",至少有四个不及格的地方。
第一,没有统一的考卷。NLP 有 GLUE,视觉有 ImageNet,但时间序列预测至今没有一个被广泛认可的标准评测基准。研究者各自拼凑一组数据集跑实验,结果难以横向比较。
第二,考卷严重偏科。现有 benchmark 的数据分布高度集中。论文分析了两个当前主流的大规模 benchmark:GIFT-Eval 有 50.7% 的序列落在同一类 regime 里,Timer 更甚,达到 65.8%。这意味着什么?模型只要在这一类"主流题型"上表现好,总分就不会差——但这不代表它真正全面。就像一张数学试卷 70% 都是计算题,你很难从总分看出谁的几何更好。
第三,考生可能提前看过答案。当前很多时序 foundation model 的预训练语料规模庞大,而公开 benchmark 被反复复用多年。测试集是否已经被模型在预训练阶段间接"见过"?这种数据泄漏风险,正在悄悄侵蚀评测的可信度。
第四,题目太简单,区分不出真实水平。很多经典数据集的序列长度偏短,GIFT-Eval 中 50% 的序列不到 200 个时间步。这对于今天动辄要做 long-context forecasting 的模型来说,根本评不出真正的能力上限。
这些问题叠加在一起,造成了一个后果:排行榜上的名次,未必反映模型的真实能力。论文刷出来的 SOTA,换个场景可能就不 work 了。
现在,蚂蚁集团正式开源 Quito 与 QuitoBench,尝试重新出一张更公平的考卷。
项目地址:
● Website:https://hq-bench.github.io/quito/[1]
● Hugging Face:https://huggingface.co/datasets/hq-bench/quitobench[2]
16 亿 token 的工业级语料,不只是"更大"
这次开源包含两个核心部分。
第一个是 Quito,一个来自真实生产环境的大规模时间序列语料库。数据来源于 Alipay 平台的应用流量,覆盖金融、电商、广告、基础设施、风控、IoT 等 9 个业务垂类——不是实验室里仿造的数据,而是每天真正在跑的生产系统。
规模上,Quito 包含两个子集:Quito-Min(22,522 条序列,10 分钟粒度,约 7 亿 token)和 Quito-Hour(12,544 条序列,1 小时粒度,约 10 亿 token),总规模达到 1.6B tokens。序列统一较长,最短也有 5,904 个时间步,足以支撑 context length 从 96 到 1024 的全范围评测。
更关键的是数据来源的"干净"。Quito 来自单一专有工业环境,与任何公开预训练语料零重叠。这从根源上杜绝了数据泄漏的可能——无论模型的预训练语料有多大,都不可能在训练阶段"见过"这些测试数据。
不按行业分,按"难不难预测"分
第二个核心部分是 QuitoBench,从 Quito 中进一步构建的评测基准。它最大的创新不在于规模,而在于组织方式。
传统 benchmark 按应用领域分组:交通、电力、天气。但领域标签其实是个很粗糙的分类方式。同样是交通数据,有的序列周期性极强,几乎可以"闭眼预测";有的则充满突发脉冲和噪声,任何模型都会挣扎。把它们扔进同一个"交通"桶里评测,掩盖的信息远比暴露的多。
QuitoBench 换了一个思路:按时间序列本身的统计特征来分类。具体来说,每条序列沿三个维度打标签——趋势强度(Trend)、季节性强度(Seasonality)、可预测性(Forecastability)。三个维度各分高低,组合出 2³ = 8 类 TSF Regime。
然后在这 8 个格子里做近乎均衡的采样,最终得到 1,290 条测试序列,每类占比 10.5%–13.2%。对比 GIFT-Eval 和 Timer 动辄 50%–65% 集中在单一 regime 的情况,QuitoBench 的均衡程度是质的飞跃。
这种设计的好处很直观:模型不能再靠"刷主流题型"上分了。aggregate metric 反映的是真实的全场景能力,而不是对某一类数据的过拟合。同时,研究者可以按 regime 做细粒度诊断——你的模型到底是在哪类序列上翻车的,一目了然。
232,200 个评测实例,10 个模型,四个意外发现
作者在 QuitoBench 上评测了 10 个代表性模型,横跨深度学习(CrossFormer、DLinear、iTransformer、PatchTST、TSMixer)、foundation model(Chronos-2、TimesFM-2.5、TiRex)和统计基线(Exponential Smoothing、Seasonal Naive)三大类。
实验覆盖 3 种 context length × 3 种 forecast horizon × 2 种预测模式 = 18 种任务配置,在 1,290 条序列上共产生 232,200 个评测实例。每个模型需要生成约 1600 万次预测——这个评测密度,在时序领域相当罕见。
结果揭示了几个颇具实践意义的发现。
发现一:Context length 是模型选型的分水岭。当历史窗口较短(L=96)时,深度学习模型全面领先;但当窗口拉长到 L≥576,foundation model 开始反超,到 L=1024 时优势进一步扩大。这说明,模型选型不能只看"谁的指标最好",还要看你的业务场景能提供多长的历史数据。历史短,用小模型;历史长,foundation model 的预训练知识才能真正发挥出来。
发现二:可预测性,才是决定难度的关键。在 Trend、Seasonality、Forecastability 三个维度中,Forecastability 对预测误差的影响最大。高可预测性序列的平均 MAE 为 0.278,低可预测性序列为 0.505,差距 1.81 倍。最容易和最困难的 regime 之间,误差差距更是达到 3.64 倍。这也从数据层面验证了 QuitoBench"按统计特征分类"的设计逻辑——行业标签做不到的事,TSF Regime 做到了。
发现三:1M 参数的小模型,打赢了 200M 的大模型。总榜第一名是 CrossFormer,参数量约 1M。而它击败的对手包括 Chronos-2(~100M)和 TimesFM-2.5(~200M)。平均而言,深度学习模型在参数量少 59 倍的前提下,达到了接近甚至更好的效果。对于资源受限、推理成本敏感的工程场景,这是一个非常实际的结论:大不一定好,小而专可能更强。
发现四:加数据比加参数更有效。作者做了 scaling 实验,分别沿"训练数据量"和"模型参数量"两条轴扩展。结论很明确:无论深度学习还是 foundation model,增加训练数据带来的收益都显著大于增加模型参数。CrossFormer 的训练数据从 10K 扩展到 100M token,MAE 下降了 66%;而参数量扩展到 1M 以上后,收益就开始趋于平台期。对时序领域来说,这意味着:与其追求更大的模型,不如先把数据做好。