标题
  • 标题
  • 作者
  • 关键词

面向古诗词的物象库构建方法及其分布规律研究

2023-02-20分类号:TP391.1;I207.2;G250.74

【作者】刘懋霖  赵萌  王昊  
【部门】南京大学信息管理学院  江苏省数据工程与知识服务重点实验室  
【摘要】在数字人文视野下,古诗词资源蕴含巨大价值但难以规模化分析。研究古诗词知识库的自动构建方法,有利于从宏观的角度对古诗词进行分析研究,挖掘其中价值。首先,基于 “物象”的概念,尝试提取古诗词中所有可能包含情感的客观名物,降低分析复杂度以构建自动化流程;其次,基于深度学习方法构建RoBERTa-BiLSTM-CRF模型,对古诗词语料进行物象抽取;之后,使用《全唐诗》和部分宋代诗词资源验证模型的可行性与泛用性;最后,成功构建《全唐诗》物象库,并初步分析其物象分布规律。使用《全唐诗》自动标注语料训练模型后,模型对普通名词、时间名词和地名识别的F1分值分别达到89.6%、93.3%和93.6%。将模型迁移至未用于训练的宋代诗词语料,抽取密度为每首诗4.5个物象,具备未登录词发现能力,说明模型有良好的泛用性和可扩展性。
【关键词】数字人文  古诗词  物象  深度学习
【基金】国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(72074108);; 南京大学“中央高校基本科研业务费专项资金资助”项目“面向人文计算的方志文本的语义分析和知识图谱研究”(010814370113)的研究成果之一
【所属期刊栏目】图书馆杂志
文献传递