面向先秦典籍的历史事件基本实体构件自动识别研究
2018-02-15分类号:G254
【部门】南京农业大学信息科学技术学院 南京理工大学经济管理学院 南京师范大学文学院
【摘要】结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
【关键词】条件随机场 数字人文 命名实体 先秦语料库
【基金】国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127);; 国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)的研究成果之一
【所属期刊栏目】国家图书馆学刊
文献传递