标题
  • 标题
  • 作者
  • 关键词

一种基于类别分布信息的文本特征选择模型

2013-08-05分类号:TP391.1

【作者】刘海峰  于利军  刘守生  
【部门】解放军理工大学理学院  解放军理工大学气象海洋学院  
【摘要】TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
【关键词】文本分类  特征选择  TF-IDF  类内分布  类间分布
【基金】国家自然科学基金“直觉模糊聚类理论及其应用”(项目编号:71071161); 江苏省自然科学基金“模糊语言模型研究”(项目编号:BK2012511)研究成果之一
【所属期刊栏目】图书情报工作
文献传递