基于多特征知识的先秦典籍词性自动标注研究

2017-09-21分类号：TP391.1

【作者】王东波黄水清何琳

【部门】南京农业大学信息科学技术学院南京农业大学领域知识关联研究中心

【摘要】[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的

【关键词】词性标注先秦古籍条件随机场模型特征模板古文信息处理

【基金】国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127);国家社会科学基金青年项目“哈佛燕京学社汉学引得丛刊研究”(项目编号:12CTQ019)研究成果之一;; 南京农业大学人文社会科学基金项目(项目编号:SKPT2016001)

【所属期刊栏目】图书情报工作

文献传递