基于DA-BERT-CRF模型的古诗词地名自动识别研究——以金陵古诗词为例
2023-01-20分类号:I207.2;K928.6;TP391.1
【部门】东南大学经济管理学院 东南大学图书馆
【摘要】古诗词地名实体识别不仅有助于深度挖掘古诗词文本之间的关联,而且有助于绘制中国诗歌版图分布,推动空间维度的中国古典文学研究。文章围绕南京城系统采集有关古诗词数据,采用BIOES方法进行地名实体标注。针对古诗词领域训练数据匮乏、以字代词等问题,提出一种采用数据增强方法,同时融合预训练模型与条件随机场方法的古诗词地名识别模型,简称DA-BERT-CRF模型。文章将训练数据采用实体交叉互换方法进行数据增强处理,然后通过预训练模型BERT得到古诗词地名的上下文语义信息,最后利用条件随机场CRF实现地名标签约束并生成全局最优地名序列。文章提出的DA-BERT-CRF模型十折交叉实验平均精确率、平均召回率和平均F值分别为86.49%、90.44%、88.35%。
【关键词】深度学习模型 地名实体识别 古诗词 数据增强
【基金】
【所属期刊栏目】图书馆杂志
文献传递