标题
  • 标题
  • 作者
  • 关键词

利用图结构进行半监督学习的短文本分类研究

2013-11-05分类号:TP391.1

【作者】张倩  刘怀亮  
【部门】西安电子科技大学经济与管理学院  
【摘要】为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。
【关键词】半监督学习  短文本  图结构  自训练
【基金】
【所属期刊栏目】图书情报工作
文献传递