标题
  • 标题
  • 作者
  • 关键词

文献被引片段特征分析与识别研究

2017-11-25分类号:G353.1

【作者】徐健  李纲  毛进  叶光辉  
【部门】武汉大学信息资源研究中心  华中师范大学信息管理学院  
【摘要】【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文
【关键词】被引片段  识别方法  引文上下文  引用对象
【基金】
【所属期刊栏目】数据分析与知识发现
文献传递