基于机器视觉的PDF学术文献结构识别

2019-04-24分类号：TP391.12;TP391.41

【作者】于丰畅陆伟

【部门】武汉大学信息管理学院

【摘要】PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便。本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将PDF文件中的视觉对象和文本对象进行映射,获得内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到PDF文档的物理结构和逻辑结构。该方法以直观的方式克服了其他PDF解析方法需要大量人工特征构建或大规模语料训练、难以识别公式表格等缺点,并成功地对ACL (Association for Computational Linguistics)的论文集进行了结构识别和全文抽取。

【关键词】PDF 学术文献机器视觉结构识别

【基金】

【所属期刊栏目】情报学报

文献传递