基于图卷积神经网络的古汉语分词研究
2023-06-24分类号:TP391.1;TP183
【部门】北京大学信息管理系 北京大学数字人文研究中心 北京大学外国语学院 北京大学人工智能研究院
【摘要】古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary (OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究更关注的是如何提高分词效果,忽视了分词任务中的一大挑战,即OOV问题。因此,本文提出了一种基于图卷积神经网络的古汉语分词框架,通过结合预训练语言模型和图卷积神经网络,将外部知识融合到神经网络模型中来提高分词性能并缓解OOV问题。在《左传》《战国策》和《儒林外史》 3个古汉语分词数据集上的研究结果显示,本文模型提高了3个数据集的分词表现。进一步的研究分析证明,本文模型能够有效地融合词典和N-gram信息;特别是N-gram有助于缓解OOV问题。
【关键词】古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT (bidirectional encoder representations from transformers)
【基金】国家自然科学基金国际重点合作项目“中国儒家学术史知识图谱构建研究”(72010107003)
【所属期刊栏目】情报学报
文献传递