标题
  • 标题
  • 作者
  • 关键词

不同特征下的学术文本结构功能自动识别研究

2018-10-24分类号:G353.1

【作者】王东波  高瑞卿  叶文豪  周鑫  朱丹浩  
【部门】南京农业大学信息科学技术学院  南京大学信息管理学院  南京大学计算机科学与技术系  
【摘要】随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。
【关键词】文本分类  条件随机场  篇章结构  深度学习
【基金】国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291)
【所属期刊栏目】情报学报
文献传递