科技论文中学术信息的提取方法综述
2017-10-25分类号:G254
【部门】大连理工大学科学学与科技管理研究所 大连理工大学WISE实验室
【摘要】为更好地利用和挖掘学术论文文本,识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求,在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景。学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息。本文综述了在PDF和HTML/XML两种不同格式的学术论文全文中,提取各类学术信息的主要方法,并指出这些方法主要面向的格式文本以及可用来提取的信息种类。最后,本文列出了提取学术信息的常用工具。
【关键词】学术信息 论文全文本 信息提取 机器学习
【基金】国家自然科学基金项目“开放获取背景下的全文引文分析方法与应用研究”(编号:71503031)资助
【所属期刊栏目】数字图书馆论坛
文献传递