标题
  • 标题
  • 作者
  • 关键词

新闻文档实体重要性排序研究

2018-06-05分类号:G252.7

【作者】陆娜  周鹏程  武川  
【部门】海南师范大学信息科学技术学院  武汉大学信息管理学院  
【摘要】[目的 /意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法 /过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果 /结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法 NDCG值为95. 86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84. 46%,是该指标下的最好结果。
【关键词】新闻文档  实体重要性  实体排序
【基金】国家自然科学基金面上项目“基于语言模型的通用实体检索建模及框架实现研究”(项目编号:71173164);; 国家自然科学地区科学基金项目“基于需求社群的协商式旅游需求自动聚合方法研究”(项目编号:71762010)研究成果之一
【所属期刊栏目】图书情报工作
文献传递