一种基于类别分布信息的文本特征选择模型
2013-08-05分类号:TP391.1
【部门】解放军理工大学理学院 解放军理工大学气象海洋学院
【摘要】TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
【关键词】文本分类 特征选择 TF-IDF 类内分布 类间分布
【基金】国家自然科学基金“直觉模糊聚类理论及其应用”(项目编号:71071161); 江苏省自然科学基金“模糊语言模型研究”(项目编号:BK2012511)研究成果之一
【所属期刊栏目】图书情报工作
文献传递