一种基于维基百科的中文短文本分类算法
2013-06-05分类号:TP391.1
【部门】西安电子科技大学经济与管理学院
【摘要】为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。
【关键词】短文本分类 维基百科 词义消歧 特征扩展
【基金】
【所属期刊栏目】图书情报工作
文献传递