标题
  • 标题
  • 作者
  • 关键词

基于条件随机场的学术期刊中理论的自动识别方法

2016-03-23分类号:G254

【作者】陈锋  翟羽佳  王芳  
【部门】南开大学商学院网络社会治理研究中心  南开大学商学院信息资源管理系  
【摘要】[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1 822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。
【关键词】理论识别  命名实体识别  引文分析  语义泛化
【基金】国家社会科学基金重大项目“我国网络社会治理研究”(项目编号:14ZDA063)研究成果之一
【所属期刊栏目】图书情报工作
文献传递