基于声学状态似然值得分模型及监督状态模型的语音识别特征融合算法

2019-02-18分类号：TN912.34

【作者】肖熙徐晨

【部门】清华大学电子工程系

【摘要】语音识别GMM-HMM (Gaussian mixture modelhidden Markov model)在使用最大似然状态序列(most likely state sequence,MLSS)准则得到观测量的最佳状态序列时,只考虑了具有语音帧最大似然值的状态信息,而忽略了其他次优状态对当前帧的影响,造成信息的丢失,从而降低了系统识别率。为更好地利用声学状态的似然值信息,该文提出了声学状态似然值得分模型和监督状态模型,并基于以上模型得到了状态似然聚类特征(state likelihood cluster feature,SLCF)、监督状态特征(supervised state feature,SSF)。这2种特征反映了MFCC (Mel frequency cepstrum coefficient)声学特征关于HMM状态的一种信息。实验表明,将SLCF、SSF分别与MFCC融合,新的特征可提高语音识别效果。融合了SLCF、SSF后,与GMMHMM只使用MFCC相比,孤立字识别系统的总错误率分别相对下降了6.10%、9.66%,连续语音识别系统的总错误率分别相对下降了2.53%、11.05%。

【关键词】监督状态特征声学特征聚类状态似然聚类特征

【基金】

【所属期刊栏目】清华大学学报(自然科学版)

文献传递