Deep Web信息抽取研究

2007-10-18分类号：TP393.09;TP311.13

【作者】董旻方曙

【部门】中国科学院研究生院中国科学院国家科学图书馆成都分馆北京100049 成都610041

【摘要】针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。

【关键词】Deep Web 信息抽取查询接口命名实体识别文档对象模型

【基金】

【所属期刊栏目】图书情报工作

文献传递