标题
  • 标题
  • 作者
  • 关键词

数字人文视域下SikuBERT增强的史籍实体识别

2021-08-17分类号:TP391.1;G255.1

【作者】刘江峰  冯钰童  王东波  胡昊天  张逸勤  
【部门】南京农业大学信息管理学院  
【摘要】利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对推动历史学习、文化自信与文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于Bert-base、RoBERTa、guwenBert、sikuBERT、sikuRoBERTa预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间名等的命名实体识别任务。实验结果表明:sikuBert、sikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能能够产生一定影响;Bert模型更为适应大规模语料任务。实验验证了基于四库全书繁体语料预训练的Bert模型在预训练、微调范式下的典籍命名实体识别的可行性,构建了一个基于sikuBert的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。
【关键词】人文计算  SikuBERT  预训练模型  史籍  实体识别
【基金】国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)研究成果
【所属期刊栏目】图书馆论坛
文献传递