面向中文的字词组合序列实体识别方法
2023-05-06分类号:TP391.1
【部门】安徽大学计算机科学与技术学院
【摘要】作为信息抽取的核心任务,命名实体识别能够从文本中识别不同类型命名实体。得益于深度学习在字词表示、特征提取方面的应用,中文命名实体识别任务取得了丰富研究成果。然而,中文命名实体识别任务依旧面临词汇信息缺乏的挑战,主要表现为:1)词汇边界信息和上下文语义信息未充分利用;2)字和自匹配词汇间语义信息未能有效捕获;3)图注意力网络输出信息中不同交互图信息的重要性未被考虑。该文提出一种面向中文的字词组合序列实体识别方法。采用字词组合序列嵌入结构,实现词汇边界信息以及字符与词汇间语义信息的充分捕捉;采用多图注意力融合架构,实现不同图神经网络提取特征重要性的区分。实验表明,相比已有经典方法,该方法在Weibo、 Resume、 OntoNotes4.0及MSRA四个数据集上的F1明显提升,在中文命名实体识别任务上具有可行性。
【关键词】自然语言处理 命名实体识别 图注意力网络 字词组合嵌入 多图注意力
【基金】国家自然科学基金重点项目(U1936220);国家自然科学基金青年项目(62006003)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递