标题
  • 标题
  • 作者
  • 关键词

混合蛙跳算法在文本分类特征选择优化中的应用

2017-01-25分类号:TP391.1

【作者】路永和  陈景煌  
【部门】中山大学资讯管理学院  
【摘要】【目的】由于文本数据存在许多与分类不相关的冗余词项,引入混合蛙跳算法进行特征选择优化,提高分类准确率。【方法】分别使用CHI和IG预选出不同维度的特征集合,再引入改进后的混合蛙跳算法对预选特征集合进行二次优选,每只青蛙的位置代表一种特征选择规则,将分类准确率作为算法的适应度函数。SVM和KNN分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征
【关键词】特征选择  文本分类  混合蛙跳算法
【基金】国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(项目编号:71373291);; 广东省科技计划项目“面向主题的中文语料库构建方法与技术”(项目编号:2015A030401037)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递