微博话题识别中基于动态共词网络的文本特征提取方法
2016-05-04分类号:G353.1;G206
【部门】华中师范大学信息管理学院 信阳农林学院工商管理学院
【摘要】本文针对微博文本的简短、动态性等特征,提出一种新的文本特征提取方法,提升微博话题识别任务中文本聚类算法效果。利用词项共现的思想,针对微博时序文本构建动态共词网络。在动态共词网络中,边权重随着时间推移而线性衰减,并在此基础上利用网络的度中心性计算微博文本特征权重。从新浪微博中采样构建实验数据集进行实验,结果表明动态共词网络特征提取方法相较于文档频率方法,更适宜于提取微博文本特征,能取得更好的微博话题识别效果。
【关键词】微博 话题识别 动态共词网络 特征提取 文本聚类
【基金】国家社会科学基金项目“基于信任的网络社区口碑信息传播模式及其演化研究”(12CTQ044)的成果之一
【所属期刊栏目】图书情报知识
文献传递