标题
  • 标题
  • 作者
  • 关键词

面向数字人文的先秦两汉典籍自动标点研究——以SIKU-BERT预训练模型为例

2022-04-16分类号:TP3;G250.7

【作者】赵连振  张逸勤  刘江峰  王东波  冯敏萱  李斌  
【部门】南京大学外国语学院  南京大学信息管理学院  南京农业大学信息管理学院  南京师范大学文学院  
【摘要】古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SIKU-BERT模型,以中国哲学书电子化计划古籍数据中的先秦两汉典籍为数据来源进行自动标点模型训练,探索了基于深度学习技术的古文自动标点模型。实验结果表明,SIKU-BERT模型对先秦两汉典籍自动标点的整体效果均比较优越,对于书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与问号标签的识别准确率、召回率与F1值表现最为优越,均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性,有助于推动数字人文在古籍研究中的发展。
【关键词】数字人文  汉语典籍  自动标点  SIKU-BERT模型
【基金】国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果
【所属期刊栏目】图书馆论坛
文献传递