基于共现分析的文本主题词聚类研究
2018-11-15分类号:G254
【部门】华东师范大学经济与管理学部 上海图书馆
【摘要】本文将共现分析应用于非结构化文本文件,挖掘文本主题的语义关联。由于文本文献不同于科技文献,缺少关键字等描述信息,本文引入主题模型对文本进行语义降维,生成的主题词作为共词分析的研究对象。实验发现中频主题词能更好地反映文本的主题特征,为此,本文结合齐普夫定律和同词频理论选取中频主题词,通过共词分析识别语义关联,并采用K-means聚类算法实现主题词的聚类。本文以"创新创业"相关新闻文本进行实验,实现文本集主题词的聚类,通过实验对比分析,本文的方法能够更好地体现文本主题的语义联系。
【关键词】主题模型 齐普夫定律 共词分析 主题词聚类
【基金】
【所属期刊栏目】图书馆杂志
文献传递