基于网页特征识别的噪音网页过滤方法研究
2011-04-30分类号:TP393.092
【部门】中国科学院国家科学图书馆 中国科学院研究生院
【摘要】本文通过对网页结构和内容特征的深入分析和识别,对噪音网页的过滤方法进行研究和实验。首先利用阈值过滤具有明显特征的噪音网页,而后建立网页特征向量,利用SVM对网页进行分类。采用采集自Web的网页数据进行实验分析,最后得出研究结论,并展望下一步工作。
【关键词】网络资源 噪音网页 过滤方法
【基金】国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”的研究成果,项目编号:2006BAH03B05
【所属期刊栏目】情报理论与实践
文献传递