标题
  • 标题
  • 作者
  • 关键词

基于二进制烟花算法的特征选择方法

2017-03-24分类号:TP391.1

【作者】路永和  陈泳珊  
【部门】中山大学资讯管理学院  
【摘要】文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、6
【关键词】词文本分类  特征选择  二进制烟花算法  信息增益  卡方统计量
【基金】国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(71373291);; 广东省科技计划项目“面向主题的中文语料库构建方法与技术”(2015A030401037)
【所属期刊栏目】情报学报
文献传递