基于可扩展LDA模型的微博话题特征抽取研究
2017-04-05分类号:G206;G353.1
【部门】南京航空航天大学经济与管理学院
【摘要】【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。
【关键词】LDA模型 微博话题 话题特征 特征抽取
【基金】国家自然科学基金面上项目(71373123);; 江苏高校哲学社会科学研究重点项目(2015ZDIXM007);; 江苏省普通高校研究生科研创新计划项目(KYZZ15_0104)
【所属期刊栏目】情报科学
文献传递