基于网页规划布局的页面主题内容抽取
2011-12-30分类号:TP393.092
【部门】中山大学资讯管理学院
【摘要】以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
【关键词】网页 信息抽取 主题分析
【基金】2008年度教育部人文社会科学研究基金项目“基于信息抽取的数字图书馆的知识获取研究”(项目批准号:08JC870013); 2009年度中山大学青年教师培育项目“智能化深度搜索引擎实现技术的研究”(项目编号:2000-3161101)的成果
【所属期刊栏目】情报理论与实践
文献传递