LDA模型的优化及其主题数量选择研究——以科技文献为例
2018-01-25分类号:G250
【部门】华侨大学统计学院 华侨大学现代应用统计与大数据研究中心
【摘要】【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题,以内部指标伪F统计量作为目标函数,计算主题聚类数目的最优解,并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33,且新模型的困惑度得分始终低于传统模型,主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语
【关键词】主题模型 词嵌入 自适应聚类 困惑度
【基金】国家社会科学基金项目“基于LDA模型的‘海上丝绸之路’文本挖掘研究”(项目编号:15CTJ005)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递