改进TF-IDF算法的文本特征项权值计算方法
2013-02-05分类号:TP391.1
【部门】中山大学资讯管理学院
【摘要】首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
【关键词】文本分类 TF-IDF 特征权重 类别区分
【基金】国家高技术研究发展计划(863计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号:2012AA101701); 广东省哲学社会科学十二五规划项目“我国农民信息需求特征及其获取渠道实证研究”(项目编号:GD11CTS04)研究成果之一
【所属期刊栏目】图书情报工作
文献传递