基于多分类器组合择优方法的主题爬行分类策略
2013-07-20分类号:G356
【部门】解放军艺术学院信息管理中心
【摘要】针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。
【关键词】主题爬行技术 主题爬行器 网页分类 分类算法 多分类器组合 分类准确率 分类效率
【基金】
【所属期刊栏目】图书情报工作
文献传递