据报道,苹果公司与俄亥俄州立大学的研究团队联合发表论文,提出了一种名为“少步离散流匹配”(FS-DFM)的新型语言模型。该模型专注于提升长文本生成的效率,仅需8轮快速迭代,即可生成与传统模型上千轮迭代质量相当的文本,且速度比同类模型最多可提高128倍。
FS-DFM是扩散模型的变体,采用三步法实现高效生成。首先,模型经过训练可适应不同迭代次数;其次,引入“教师”模型引导,确保精准更新;最后,优化迭代机制,减少生成步骤。在性能评估中,FS-DFM与70亿参数的Dream模型和80亿参数的LLaDA模型对比,即使参数量仅为1.7亿至17亿,其在困惑度和熵两项关键数据上均表现优异,生成文本更准确且稳定。