标题
  • 标题
  • 作者
  • 关键词

面向数字人文的融合外部特征的典籍自动分词研究——以sikuBERT预训练模型为例

2021-08-31分类号:G254;G255.1

【作者】刘畅  王东波  胡昊天  张逸勤  李斌  
【部门】南京农业大学信息管理学院  南京师范大学文学院  
【摘要】数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
【关键词】自动分词  数字人文  sikuBERT  预训练技术  词典信息融合
【基金】
【所属期刊栏目】图书馆论坛
文献传递