基于Heritrix的Web信息抽取

2009-05-10分类号：TP391.1

【作者】陈俊彬曹树金

【部门】中山大学资讯管理系

【摘要】针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。

【关键词】Heritrix 信息抽取 HTMLparser Web数据采集

【基金】

【所属期刊栏目】图书情报工作

文献传递