面向科技文献的混合语义信息抽取方法研究
2013-06-05分类号:TP391.1
【部门】中国科学院国家科学图书馆 山东理工大学图书馆
【摘要】针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。
【关键词】科技文献 信息抽取 语义标注 正则表达
【基金】
【所属期刊栏目】图书情报工作
文献传递