标题
  • 标题
  • 作者
  • 关键词

基于Nutch的Web论坛分块采集系统

2017-04-15分类号:TP391.3

【作者】程杜新  傅魁  
【部门】武汉大学信息管理学院  武汉理工大学经济学院  
【摘要】随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。
【关键词】Nutch  Web论坛  信息采集  分块解析
【基金】
【所属期刊栏目】图书馆学研究
文献传递