基于Kinect辅助的机器人带噪语音识别

2017-09-15分类号：TN912.34;TP242

【作者】王建荣高永春张句魏建国党建武

【部门】天津大学计算机科学与技术学院天津大学软件学院

【摘要】音视频信息融合可以提升机器人在噪声环境下的语音识别性能。然而受说话者的头部旋转、唇部尺寸不一、距摄像头距离不固定以及光照等因素影响,唇部信息不能得到有效的全面表征。该文提出融合机器人与Kinect的多模态系统。该系统采用Kinect获取3-D数据和视觉信息,并使用3-D数据重构侧唇来补充音视频信息。一系列基于特征融合和决策融合方法的结果表明:该文提出的多模态系统优于基于音视频单流和双流的语音识别系统,能够辅助机器人在自身噪声环境下的语音识别。

【关键词】仿人机器人自身噪声自动语音识别 Kinect 多模态系统

【基金】国家自然科学基金资助项目(61471259,61233009);; 天津市自然科学基金资助项目(16JCZDJC35400)

【所属期刊栏目】清华大学学报(自然科学版)

文献传递