文献被引片段特征分析与识别研究
2017-11-25分类号:G353.1
【部门】武汉大学信息资源研究中心 华中师范大学信息管理学院
【摘要】【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文
【关键词】被引片段 识别方法 引文上下文 引用对象
【基金】
【所属期刊栏目】数据分析与知识发现
文献传递