标题
  • 标题
  • 作者
  • 关键词

微博话题识别中基于动态共词网络的文本特征提取方法

2016-05-04分类号:G353.1;G206

【作者】商宪丽  王学东  
【部门】华中师范大学信息管理学院  信阳农林学院工商管理学院  
【摘要】本文针对微博文本的简短、动态性等特征,提出一种新的文本特征提取方法,提升微博话题识别任务中文本聚类算法效果。利用词项共现的思想,针对微博时序文本构建动态共词网络。在动态共词网络中,边权重随着时间推移而线性衰减,并在此基础上利用网络的度中心性计算微博文本特征权重。从新浪微博中采样构建实验数据集进行实验,结果表明动态共词网络特征提取方法相较于文档频率方法,更适宜于提取微博文本特征,能取得更好的微博话题识别效果。
【关键词】微博  话题识别  动态共词网络  特征提取  文本聚类
【基金】国家社会科学基金项目“基于信任的网络社区口碑信息传播模式及其演化研究”(12CTQ044)的成果之一
【所属期刊栏目】图书情报知识
文献传递