融合领域知识与深度学习的机器翻译领域自适应研究

2017-10-05分类号：G254;H085

【作者】丁亮何彦青

【部门】中国科学技术信息研究所

【摘要】【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域:利用论文关键词和科技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法

【关键词】神经机器翻译训练语料选取领域自适应神经网络深度融合模型

【基金】国家自然科学基金项目(61303152;71503240;71403257);; 中国科学技术信息研究所重点工作项目(ZD2017-4)

【所属期刊栏目】情报科学

文献传递