基于改进TF-IDF特征提取的文本分类模型研究

2017-05-05分类号：TP391.1

【作者】周源刘怀兰杜朋朋廖岭

【部门】清华大学公共管理学院华中科技大学机械科学与工程学院

【摘要】【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。

【关键词】特征提取 TF-IDF 文本分类文本网络 Page Rank

【基金】国家自然科学基金项目(91646102;L1624045;L1624041;L1524015;71203117);; 教育部人文社会科学项目(16JDGC011)

【所属期刊栏目】情报科学

文献传递