Deep Web信息抽取研究
2007-10-18分类号:TP393.09;TP311.13
【部门】中国科学院研究生院 中国科学院国家科学图书馆成都分馆 北京100049 成都610041
【摘要】针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。
【关键词】Deep Web 信息抽取 查询接口 命名实体识别 文档对象模型
【基金】
【所属期刊栏目】图书情报工作
文献传递