标题
  • 标题
  • 作者
  • 关键词

CRFs字角色标注方法在中文附加关键词抽取中的应用研究

2018-09-21分类号:G254

【作者】张海潮  王昊  唐慧慧  薛蔚  
【部门】南京大学信息管理学院  江苏省数据工程与知识服务重点实验室  
【摘要】[目的/意义]探讨中文社会科学领域题名关键词最佳抽取模型,用以获取引文题名关键词,完成附加关键词的抽取。[方法/过程]文章以2014年CSSCI全部文献的题名为语料,运用条件随机场(CRFs),通过探究不同特征(或集合)和参数对关键词识别的影响,构建字角色标注的题名关键词标引模型,最终迁移应用到引文题名。[结果/结论]通过实验,获得最佳题名关键词标引模型,F1值可达到52.03%,每篇原文可获得附加关键词9个左右。在恰当的特征组合与参数下,构建的标引模型可以有效完成附加关键词的获取工作。[局限]语料中的每个关键词平均出现两次可能会影响机器学习的效果,原文与引文题名的差异可能影响模型的适用性,此外模型得到的附加关键词尚需进一步斟酌选择。
【关键词】附加关键词  条件随机场  关键词抽取  题名关键词  机器学习
【基金】国家自然科学基金青年项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号:71503121)的成果;; “江苏青年社科英才”和南京大学“仲英青年学者”计划的资助
【所属期刊栏目】情报理论与实践
文献传递