苹果联合人大发布VSSFlow模型:无声视频AI同步生成音效与配音
创始人
2026-02-10 07:50:29

IT之家 2 月 10 日消息,科技媒体 9to5Mac 昨日(2 月 9 日)发布博文,报道称苹果公司携手中国人民大学(简称人大),推出 VSSFlow 新型 AI 模型,突破了传统音频生成技术的瓶颈,仅需单一系统即可从无声视频中同时生成逼真的环境音效与人类语音。

该模型的核心能力在于“化静为动”,能够直接处理无声视频数据,在单一系统的框架下,同步生成与画面高度匹配的环境音效以及精准的语音对话。该成果不仅解决了过去音频生成模型功能单一的问题,更在生成质量上达到了行业领先水平。

IT之家援引博文介绍,在 VSSFlow 问世之前,行业内的模型往往存在严重的偏科现象:视频转声音模型(V2S)难以生成清晰的语音,而文本转语音模型(TTS)又无法处理复杂的环境噪音。

传统的解决方案通常是将两者分阶段训练,这不仅增加了系统的复杂性,还常因任务冲突导致性能下降。VSSFlow 则另辟蹊径,采用了 10 层架构设计并引入“流匹配”技术,让模型自主学习如何从随机噪声中,重构出目标声音信号。

研究团队在训练过程中发现了一个令人惊喜的现象:联合训练不仅没有导致任务干扰,反而产生了“互助效应”。即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。

团队为了实现这一效果,向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。

在实际运行中,VSSFlow 以每秒 10 帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。

测试数据显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。研究团队目前已在 GitHub 上开源了 VSSFlow 的代码,并正在推进模型权重公开及在线推理演示的开发工作。

IT之家附上参考地址

相关内容

热门资讯

原创 黄... 黄磊和孙莉带着他们的二女儿以及刚出生的三胎儿子,一家四口悠闲地游玩广东。自从嫁入黄磊的家庭后,孙莉几...
【安庆新闻联播】春茶采摘正当时... 安庆各地立足生态资源禀赋和茶产业基础,以茶旅融合为主线,推动生态优势向产业优势、发展优势转化,走出一...
南京位列五一酒店预订热门目的地... 近日,同程旅行发布的《2026年五一旅行趋势报告》显示,南京位列五一假期酒店预订热门目的地TOP2,...
旅行是疲惫生活的解药:2026... 旅行,是我们给自己的温柔奖励 会不会你也常常有感觉到些许疲惫的时候呢,日子被工作以及那些琐碎的事情给...
暑假带孩子来伊犁研学?这份哈萨... 暑假带孩子来伊犁研学?这份哈萨克非遗与草原生态深度游攻略请收好! 每年暑假,都有许多像您一样的家长,...