基于静音时长和文本特征融合的韵律边界自动标注
2017-11-28分类号:TN912.3
【部门】中国科学院自动化研究所模式识别国家重点实验室 中国科学院大学人工智能技术学院 中国科学院自动化研究所中国科学院脑科学与智能技术研究中心
【摘要】韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而获得最优标注。以词为单位提取了静音时长,与传统以帧为单位的声学特征相比更具有明确的物理意义,与韵律边界的联系更加紧密。实验结果表明:相比传统声学特征,该文所采用的静音时长特征使自动韵律标注的性能有所提高;相比直接特征层面的方法,决策融合方法更好地结合了声学和文本的特征,进一步提高了标注的性
【关键词】韵律边界标注 决策融合 静音时长 语料库构建 语音合成
【基金】国家“八六三”高技术项目(2015AA016305);; 国家自然科学基金面上项目(61425017,61403386);; 中国科学院战略性先导科技专项(GrantXDB02080006);; 中国社会科学基金重大项目(13&ZD189)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递