基于Heritrix的Web信息抽取
2009-05-10分类号:TP391.1
【部门】中山大学资讯管理系
【摘要】针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。
【关键词】Heritrix 信息抽取 HTMLparser Web数据采集
【基金】
【所属期刊栏目】图书情报工作
文献传递