学术文本被引片段的自动识别研究

2019-06-12分类号：G354.1

【作者】章成志徐津马舒天

【部门】南京理工大学经济管理学院信息管理系

【摘要】[目的/意义]目前学术文献被引片段识别研究存在两个问题:对于给定的一个引文上下文,其所对应的被引片段句子数量并没有明确的定义;构建特征中很少考虑句子中词语的语义相似度特征。文章基于以上两个角度,对已有的实验方案进行改进,旨在提高被引片段的识别效果。[方法/过程]首先,按照不同的粒度对被引文献进行句子切分,以考察不同粒度切分下被引片段的识别效果,从而确定被引片段的最佳句子数量。随后,在被引片段识别模型中加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,度量不同句子中词语间的语义相似度。[结果/结论]实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势;另外,所增加的词语语义相似度特征能够有效地在句子间建立细粒度的语义关联,提高了模型的稳定性,从而提升了被引片段的识别效果。[局限]仅从特征构建的角度对被引片段的识别工作进行优化,提升效果较为有限。模型选择方面,仍局限于使用传统的机器学习算法,未考虑现有的深度学习算法对本工作进行改进。

【关键词】学术文献被引片段引文分析文本分类语义相似度

【基金】国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(项目编号:17ZDA291);; 江苏省研究生科研创新计划项目“学术文献引文域自动识别研究”(项目编号:KYCX18_0365)的成果

【所属期刊栏目】情报理论与实践

文献传递