标题
  • 标题
  • 作者
  • 关键词

针对爬虫的域名链接过滤算法

2014-10-20分类号:TP391.3

【作者】文阳  陈文宇  袁野  朱建  
【部门】电子科技大学图书馆  电子科技大学计算机学院  
【摘要】认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。
【关键词】网络爬虫  链接过滤  域名过滤  主题过滤
【基金】
【所属期刊栏目】图书情报工作
文献传递