标题
  • 标题
  • 作者
  • 关键词

基于改进的LDA主题模型的微博用户聚类研究

2016-09-02分类号:TP391.1;G206

【作者】裴超  肖诗斌  江敏  
【部门】北京信息科技大学计算机学院  北京拓尔思信息技术股份有限公司  
【摘要】大规模文档集中潜藏的语义信息一般可以用潜在狄利克雷(LDA)主题模型识别,因为微博短文本语义稀疏,所以在微博短文本聚类中的应用并不理想。利用传统的潜在狄利克雷分布的主题模型来给微博建模,得到的微博用户分布并不直观,通过改进的LDA模型将用户表示为主题概率向量,不仅能够充分地挖掘文本隐藏的语义信息,同时能够直观地呈现用户的主题分布。提出基于密度区域划分的K-meAns算法对微博用户进行聚类。使用真实的微博数据集进行验证,与传统的K-meAns聚类方法对比,采用该方法对微博用户的聚类能够有较明显的提高。
【关键词】微博  主题模型  文本聚类  k均值算法
【基金】国家自然科学基金项目“网页内容真实性评价研究”(项目编号:61171159); 北京市发改委项目“异构大数据分析挖掘整合技术北京市工程实验室创新能力建设项目”的成果
【所属期刊栏目】情报理论与实践
文献传递