标题
  • 标题
  • 作者
  • 关键词

基于CRFs和词典信息的中古汉语自动分词

2017-05-25分类号:TP391.1

【作者】王晓玉  李斌  
【部门】南京师范大学文学院  
【摘要】【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词
【关键词】CRFs模型  分词一致性  中古汉语  自动分词
【基金】国家社会科学基金重大项目“汉语史研究语料库建设研究”(项目编号:10&ZD117);国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127)的研究成果之一;; 教育部人文社会科学青年项目“汉语历时词汇数据库的构建与计量研究”(项目编号:16YJC740034)
【所属期刊栏目】数据分析与知识发现
文献传递