说话人识别中的分数域语速归一化

2018-03-14分类号：TN912.34

【作者】艾斯卡尔·肉孜王东李蓝天郑方张晓东金磐石

【部门】清华大学计算机科学与技术系清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心信息技术研究院语音和语言技术中心中国建设银行信息技术管理部

【摘要】语速变化导致说话人识别系统性能显著下降。该文提出一种分数域语速归一化方法来降低语速变化对说话人识别系统的影响。由不同语速语音数据组成参考集(全局和局部),对每一个登入说话人估计其对参考集中每一类参考语音的分数分布,局部参考集通过按相对语速划分全局参考集而获得。基于该文录制的语速数据库在GMM-UBM(Gaussian mixture model-universal background model)框架下对测试语音进行分数归一化,并通过训练数据扩展有效解决了数据系数问题,最终等错误率相对下降33.33%。

【关键词】说话人识别分数域语速归一化相对语速 GMM-UBM

【基金】国家自然科学基金资助项目(61271389,61371136);; 国家“九七三”重点基础研究发展计划(2013CB329302)

【所属期刊栏目】清华大学学报(自然科学版)

文献传递