标题
  • 标题
  • 作者
  • 关键词

基于Heritrix的Web信息抽取

2009-05-10分类号:TP391.1

【作者】陈俊彬  曹树金  
【部门】中山大学资讯管理系  
【摘要】针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。
【关键词】Heritrix  信息抽取  HTMLparser  Web数据采集
【基金】
【所属期刊栏目】图书情报工作
文献传递