标题
  • 标题
  • 作者
  • 关键词

基于网页规划布局的页面主题内容抽取

2011-12-30分类号:TP393.092

【作者】聂卉  张津华  
【部门】中山大学资讯管理学院  
【摘要】以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
【关键词】网页  信息抽取  主题分析
【基金】2008年度教育部人文社会科学研究基金项目“基于信息抽取的数字图书馆的知识获取研究”(项目批准号:08JC870013); 2009年度中山大学青年教师培育项目“智能化深度搜索引擎实现技术的研究”(项目编号:2000-3161101)的成果
【所属期刊栏目】情报理论与实践
文献传递