我们介绍了Google DeepMind的生物声学基础模型Perch 2.0如何在主要基于鸟类和其他陆地动物发声训练的基础上,成功迁移到水下声学挑战中,在鲸鱼相关任务上表现出色。
水下声学的重要性
水下声音对于理解海洋物种及其环境的不可见模式至关重要。海洋声景充满了神秘的噪音和未被发现的奥秘。例如,美国国家海洋和大气管理局最近将神秘的"生物弦音"归因于难以捉摸的布氏鲸,这说明了新声音类型和物种归属识别的持续挑战。
Google在与外部科学家合作使用生物声学监测和保护鲸鱼方面有着悠久的历史,包括我们检测座头鲸分类的原始研究模型和2024年发布的多物种鲸鱼模型。为了跟上这一步伐,Google在生物声学AI方面的方法正在发展,以实现从新发现到科学见解的更高效连接。2025年8月,Google DeepMind发布了最新的Perch基础生物声学模型Perch 2.0,这是一个主要基于鸟类和其他陆地发声动物训练的生物声学基础模型。令人惊讶的是,尽管训练中不包含水下音频,Perch 2.0在海洋验证任务的迁移学习中作为嵌入模型表现出色。
在我们最新的论文"Perch 2.0在水下任务中的迁移学习"中,Google Research和Google DeepMind合作在NeurIPS 2025非人类动物交流AI研讨会上展示了这些结果。我们深入研究了这些结果,展示了这个主要基于鸟类数据训练的生物声学基础模型如何用于支持和扩展水下海洋生态系统的洞察,特别是在鲸鱼发声分类方面。
迁移学习的优势
如果预训练的分类模型,如我们的多物种鲸鱼模型,已经具有必要的标签并在研究人员的数据集上表现良好,它可以直接用于为音频数据产生分数和标签。然而,为了为新发现的声音创建新的自定义分类器或提高新数据的准确性,我们可以利用迁移学习而不是从头构建新模型。这种方法大大减少了创建新自定义分类器所需的计算和实验量。
在生物声学迁移学习中,预训练模型用于为每个音频窗口生成嵌入。这些嵌入将大量音频数据减少为更小的特征数组,作为简单分类器的输入。为了为任何标记音频数据集创建新的自定义模型,我们将预训练模型应用于音频数据以获得嵌入,这些嵌入用作逻辑回归分类器的输入特征。
实验评估和结果
我们使用少样本线性探测在海洋任务上评估了Perch 2.0,如区分不同须鲸物种或不同虎鲸亚群。其性能与我们Perch Hoplite存储库中支持的预训练模型进行比较,包括Perch 2.0、Perch 1.0、SurfPerch和多物种鲸鱼模型。
对于水下数据评估,我们使用了三个数据集:NOAA PIPAN、ReefSet和DCLDE。
我们的结果显示,每类更多示例可以提高所有模型的性能,除了ReefSet数据,在该数据上,即使每类只有四个示例,所有模型的性能也很高,多物种鲸鱼模型除外。值得注意的是,Perch 2.0在每个数据集和样本大小上始终是表现最佳或第二佳的模型。
我们还将Perch 2.0与AVES-bird和AVES-bio的嵌入以及康奈尔鸟类学实验室的BirdNet v2.3进行了比较。Perch 2.0在大多数水下任务上超过了AVES-bird和AVES-bio。
迁移性能分析
我们为从主要基于鸟类训练的模型到水下声音的迁移性能提供了几个可能的原因。首先,先前的研究表明,具有大量训练数据的更大模型泛化能力更强。此外,分类相似鸟类叫声的挑战迫使模型学习详细的声学特征,这些特征可以为其他生物声学任务提供信息。最后,不同类型物种之间的特征迁移也可能与声音产生机制本身有关,各种物种包括鸟类和海洋哺乳动物已经进化出类似的声音产生方式。
敏捷建模方法
Google DeepMind Perch团队与Google Research和外部合作伙伴合作,开创了生物声学的敏捷建模方法,可以在几小时内从少量标记示例创建自定义分类器。为了支持Google Research合作伙伴以及更广泛的鲸类声学社区,我们为使用托管在Google Cloud上的被动声学档案数据集中的NOAA数据创建了端到端演示。
Q&A
Q1:Perch 2.0是什么?它有什么特殊之处?
A:Perch 2.0是Google DeepMind开发的生物声学基础模型,主要基于鸟类和其他陆地动物发声进行训练。其特殊之处在于,尽管训练中不包含水下音频,但在海洋生物声学任务中表现出色,能够有效分类鲸鱼发声。
Q2:为什么基于鸟类训练的模型能够处理水下声音?
A:有几个可能原因:首先,大型模型具有更强的泛化能力;其次,区分相似鸟类叫声的挑战迫使模型学习详细的声学特征,这些特征对其他生物声学任务也有帮助;最后,不同物种的声音产生机制可能存在相似性。
Q3:迁移学习在生物声学中有什么优势?
A:迁移学习可以大大减少创建新自定义分类器所需的计算和实验量。它使用预训练模型生成音频嵌入作为简单分类器的输入,而不需要从头训练深度神经网络的所有参数,这对研究人员的时间和计算资源都更加高效。