面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例(9)
2021-11-11分类号:K204.3;G254.3
【部门】金陵科技学院 南京农业大学信息管理学院 金陵科技学院数字出版专业系
【摘要】可以降低信息获取成本,对篇幅长而句子短、文字理解门槛高的古籍文献而言尤其必要,但针对古文的自动摘要研究少。文章面向《资治通鉴》语料,基于Siku BERT预训练模型进行自动摘要实验,并对比传统抽取式自动摘要算法和百度智能云摘要分析算法在《资治通鉴》语料上的表现。实验结果表明,基于Siku BERT预训练模型生成的摘要结果在稳定性、覆盖度等方面均优于其他两种方法;通过专家人工打分方式,基于Siku BERT预训练模型生成的摘要结果平均得分最高。实验验证了使用数字人文技术对古文进行自动摘要任务的可行性和利用Siku BERT预训练模型对古文进行信息处理的适用性。
【关键词】数字人文 Siku BERT 预训练模型 自动摘要
【基金】江苏高校哲学社会科学研究项目“基于CSSCI的组块级汉英平行语料库构建及知识挖掘研究”(项目批准号2018SJA0473);; 金陵科技学院高层次人才科研启动项目“大数据环境下面对论文相似性检测的学术资源预处理研究”(项目批准号jit-b-2021-37)研究成果
【所属期刊栏目】图书馆论坛
文献传递