基于大数据技术的微博舆情快速自聚类方法研究
2017-05-18分类号:G206;TP311.13
【部门】湘南学院软件与通信工程学院
【摘要】[目的/意义]针对海量的微博舆情信息及微博在网络舆论场中的重要作用,如何快速、准确地获取微博舆情,是提升网络舆情实时监测及分析能力的关键课题之一。目前已能以较高的准确度获取微博舆情,但仍存在舆情获取耗时长问题,为较有效地解决该问题,提出一种基于大数据技术的微博舆情快速自聚类方法。[方法/过程]该方法首先利用大数据技术抓取和处理海量的微博舆情信息,而后根据构建的微博文本相似度速算模型和文本自主聚类模型快速自主聚类微博舆情。文本相似度速算模型通过两文本间同名的特征词数与其特征词数量较小值的比值来度量文本相似度
【关键词】微博舆情 大数据技术 文本相似度 快速自聚类 特征词
【基金】教育部人文社会科学研究项目“基于大数据分析的在线社会网络舆情挖掘及风险管控研究”(编号:15YJC870004);; 湖南省哲学社会科学基金项目“网络环境下社会舆情危机事件的识别及评价策略研究”(编号:13YBA302)
【所属期刊栏目】情报杂志
文献传递