基于预训练模型的半监督说话人验证系统
2024-07-31分类号:TN912.3;TP18
【部门】厦门大学人工智能研究院 厦门大学电子工程系 厦门大学人工智能系
【摘要】近年来,预训练模型(pre-trained models, PTMs)被广泛应用于说话人验证(speaker verification, SV)系统,通过在预训练模型下游接入说话人分类网络,并进行微调,可大幅提升系统性能。然而,目前基于预训练模型的SV研究大多在有标签的数据集上进行微调,需要大量目标域带标注数据。该文提出一种基于预训练模型的半监督说话人验证系统,首先,利用少量带标注数据训练一个种子模型;其次,利用该种子模型结合无监督聚类算法为无标注数据生成伪标签;再次,联合真实标注数据和伪标注数据进行模型重训练;最后,通过多轮迭代提升模型性能。在仅有100 h带标签说话人数据的条件下,该文提出的半监督系统在Vox Celeb1-O测试集的等错误率为1.02%,比基线系统降低了86.8%,表明该文所提出的半监督说话人验证系统的有效性。
【关键词】说话人验证 预训练模型 微调 半监督学习 聚类
【基金】国家自然科学基金项目(62371407,62001405,62276220)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递