基于潜在语义分析的微博主题挖掘模型研究
2012-12-20分类号:H030;G206
【部门】武汉大学信息资源研究中心
【摘要】为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。
【关键词】微博 短文本 主题挖掘 LDA模型 增量聚类
【基金】国家自然科学基金资助项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194); 教育部人文社会科学重点研究基地重大项目“面向决策的企业信息资源集成研究”(项目编号:2009JJD870002)研究成果之一
【所属期刊栏目】图书情报工作
文献传递