标题
  • 标题
  • 作者
  • 关键词

科技论文中学术信息的提取方法综述

2017-10-25分类号:G254

【作者】胡志刚  田文灿  孙太安  侯海燕  
【部门】大连理工大学科学学与科技管理研究所  大连理工大学WISE实验室  
【摘要】为更好地利用和挖掘学术论文文本,识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求,在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景。学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息。本文综述了在PDF和HTML/XML两种不同格式的学术论文全文中,提取各类学术信息的主要方法,并指出这些方法主要面向的格式文本以及可用来提取的信息种类。最后,本文列出了提取学术信息的常用工具。
【关键词】学术信息  论文全文本  信息提取  机器学习
【基金】国家自然科学基金项目“开放获取背景下的全文引文分析方法与应用研究”(编号:71503031)资助
【所属期刊栏目】数字图书馆论坛
文献传递