网络科技信息监测中富文档识别与信息提取技术研究
2017-01-05分类号:G254
【部门】中国科学院文献情报中心 中国科学院大学
【摘要】【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。
【关键词】富文档 元数据 类型识别
【基金】中国科学院文献情报能力建设专项(院1509);; 教育部人文社科基金(14YJC870029)
【所属期刊栏目】情报科学
文献传递