基于多特征知识的先秦典籍词性自动标注研究
2017-09-21分类号:TP391.1
【部门】南京农业大学信息科学技术学院 南京农业大学领域知识关联研究中心
【摘要】[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的
【关键词】词性标注 先秦古籍 条件随机场模型 特征模板 古文信息处理
【基金】国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127);国家社会科学基金青年项目“哈佛燕京学社汉学引得丛刊研究”(项目编号:12CTQ019)研究成果之一;; 南京农业大学人文社会科学基金项目(项目编号:SKPT2016001)
【所属期刊栏目】图书情报工作
文献传递