标题
  • 标题
  • 作者
  • 关键词

微博短文本预处理及学习研究综述

2013-06-05分类号:TP391.1

【作者】王连喜  
【部门】广东外语外贸大学图书馆  
【摘要】认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。
【关键词】微博短文本  预处理  短文本学习  热点事件发现  自动文摘
【基金】国家自然科学基金青年项目“微博虚假信息及早检测与有效控制关键技术研究”(项目编号:61202271);国家自然科学基金项目“不平衡数据的学习算法及应用研究”(项目编号:61070061)研究成果之一
【所属期刊栏目】图书情报工作
文献传递