标题
  • 标题
  • 作者
  • 关键词

中文博客标签的聚类及可视化研究

2014-07-15分类号:TP391.1

【作者】顾晓雪  章成志  
【部门】南京理工大学信息管理系  
【摘要】文章选取科学网博文的两类标签为研究对象,用户生成标签和用TEXTRANK算法产成机器生成标签,对标签进行统计处理后生成各自的标签词典,根据标签词典用两种相似度计算方法 (余弦向量法和欧式距离法)对标签进行相似度计算,用开源的AP聚类算法对两种不同来源的标签进行聚类,并使用可视化工具对聚类标签进行展示,最后对两种标签聚类结果进行了相应的比较和描述。研究发现,用户生成标签的聚类结果比机器生成标签的聚类结果要更分散,能够通过标签聚类发现一些主题。
【关键词】标签聚类  可视化  博客
【基金】国家自然科学基金项目(项目编号:71273126); 教育部人文社会科学基金规划项目(项目编号:13YJA870020); 中央高校基本科研业务费专项资金项目(项目编号:30920130132013)资助
【所属期刊栏目】情报理论与实践
文献传递