基于HLDA-IDF模型的网络文本主题挖掘研究
2017-10-12分类号:TP391.1
【部门】南京航空航天大学经济与管理学院
【摘要】[目的/意义]为了弥补LDA模型建模过程中未考虑到网络文本中文档关注度和质量度这一因素,并增强结果的语义可解释性和主题表示能力,文章提出了一种热度加权的HLDA-IDF的网络文本主题挖掘模型。[方法/过程]本文首先是给出了较为准确的热度定义,并对LDA模型进行热度加权,构建出了HLDA模型,再依据词汇的主题表示能力存在差异这一实际情况,引入TF-IDF算法并改进,构建出HLDA-IDF模型,最后利用实际论坛数据进行实验验证。[结果/结论]实验结果表明该模型的结果语义可解释性和主题表示能力较强。
【关键词】热度 模型 主题挖掘 网络文本 文本挖掘
【基金】国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123);; 江苏高校哲学社会科学研究重点项目“基于超网络的江苏教育微博舆情多元意见演化模型及应用研究”(项目编号:2015ZDIXM007);; 江苏省普通高校研究生科研创新计划项目“社交网络上的舆情传播模型及控制策略研究”(项目编号:KYZZ15_0104)的成果
【所属期刊栏目】情报理论与实践
文献传递