基于关键词重要性和近邻传播聚类的主题分析研究
2018-05-24分类号:G353.1
【部门】华侨大学工商管理学院 华侨大学现代应用统计与大数据研究中心
【摘要】鉴于传统科学计量方法存在共现分析缺少考虑关键词重要性和主题分析手段不能自适应地抽取核心主题等问题,本文提出一种基于关键词重要性和近邻传播聚类的主题分析方法。该方法依据大多数作者的潜在行为会按照与研究内容相关性的强弱顺序提供论文关键词,计算关键词在每个文献中的重要程度,构建主要关键词之间的相似性矩阵,结合能够反馈最优簇成员代表性结果的近邻传播聚类实现核心主题的提取与分析。本研究对图书情报类某刊物2012-2016年期间的文献关键词进行数据挖掘,使用新方法实现了基于重要性度量的主要关键词聚类,分析和研究了主要关键词和核心主题的演化趋势。提出的方法不仅能够考虑关键词重要性和自动识别核心主题,还可以为文献主题分析提供新的数据挖掘方法,也能有效提高期刊和学科等相关领域的主题识别效果。
【关键词】主题分析 关键词重要性 近邻传播聚类 核心主题
【基金】国家自然科学基金项目“高维时间序列数据聚类分析及应用研究”(71771094);; 福建省社会科学规划项目“基于时间序列数据挖掘的期刊参考文献和引证文献分析研究”(FJ2017B065)
【所属期刊栏目】情报学报
文献传递