标题
  • 标题
  • 作者
  • 关键词

数字人文视域下典籍动物命名实体识别研究——以Siku BERT为例

2022-04-16分类号:G250.7

【作者】林立涛  王东波  刘江峰  李斌  冯敏萱  
【部门】南京农业大学信息管理学院  南京师范大学文学院  
【摘要】通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义。基于Siku BERT预训练模型构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法。利用25部经人工标注动物命名实体的先秦典籍语料,对Siku BERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证Siku BERT预训练模型的识别性能。结果表明,基于Siku BERT经训练所构建的动物命名实体识别模型效果最优,10折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%。
【关键词】数字人文  典籍  动物命名实体识别  《四库全书》预训练模型  深度学习
【基金】国家社科基金重大项目“中国古代古籍跨语言知识库构建及应用研究”(项目编号:21&ZD331);; 江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)的研究成果
【所属期刊栏目】图书馆论坛
文献传递