基于系统分类学信息的鸟类音频零样本分类
2024-09-18分类号:Q959.7;TN912.3;TP18
【部门】北京林业大学工学院林业装备与自动化国家林业和草原局重点实验室林木资源高效生产全国重点实验室
【摘要】【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,助力开放环境中的生态监测和物种分布变化分析。【方法】利用反映鸟类系统发育关系的系统分类学信息作为声音类的物种类别辅助信息,以预训练的RoBERTa文本编码器和HTSAT音频编码器分别提取系统分类学信息的语义嵌入和鸟类音频的声学嵌入,通过对比学习方法计算语义嵌入和声学嵌入的相似度,构建鸟类对比语言-音频预训练模型(CLAP-Bird),然后基于零样本类的物种类别辅助信息和CLAP-Bird模型实现零样本分类。【结果】在一个包含725 h的大型不平衡鸟类音频数据集上训练和评估了所提出的方法,在5个不同的8~10个类别的测试集上获得的平均F1_score为0.289,与以鸟类学名、鸟类生活史和基础特性信息作为物种类别辅助信息的基线模型相比,本文提出的模型对鸟类音频零样本分类性能明显提升。【结论】鸟类的系统分类学信息作为物种类别辅助信息,提供了关于鸟类的生物学遗传信息,有助于模型更好地理解鸟类鸣声之间的关系,提升了鸟类音频零样本学习的性能。且训练集与测试集的系统分类学关系越接近,则对测试集的零样本分类性能越好。这为鸟类音频的零样本分类研究提供新的思路和方法。
【关键词】鸟类音频分类 零样本学习 系统分类学信息 物种类别辅助信息 对比学习
【基金】“十二五”科技支撑计划项目专题“华北土石山区森林可持续经营技术研究与示范”(2012BAD22B0304);; 国家林业局林业公益性行业科研专项(20100400205)经费资助国家自然科学基金项目(62303063;32371874)
【所属期刊栏目】林业科学
文献传递