标题
  • 标题
  • 作者
  • 关键词

基于HMM的楚辞自动分词标注研究

2014-02-20分类号:TP391.1

【作者】钱智勇  周建忠  童国平  苏新宁  
【部门】南通大学楚辞研究中心  南通大学图书馆  南京大学信息管理学院  
【摘要】研究古代和现代汉语的自动分词标注技术,用隐马尔科夫模型对《楚辞》进行自动分词标注实验,通过比较分词后的标注词性概率,取最大概率作为最后的分词和词性标注结果,并在其中使用全切分和加值平滑算法。经过实验调整分词标注程序模块和参数,最终得到一个分词标注辅助软件,其开放测试的分词F值为85%,标注F值为55%,高出基准F值14个百分点。
【关键词】隐马尔科夫模型  楚辞  自动分词  词性标注  古文分词
【基金】江苏省高校哲学社会科学重点研究基地重大项目“楚辞数字化处理与应用研究”(项目编号:2010JDXM037); 国家社会科学基金项目“楚辞文献语义化研究”(项目编号:10BTQ031)研究成果之一
【所属期刊栏目】图书情报工作
文献传递