基于突显词博文聚类的官微事件检测方法
2017-09-25分类号:TP391.1
【部门】内蒙古科技大学信息工程学院 包头师范学院计算机系
【摘要】【目的】针对官方微博数据存在大量不相关信息的问题,过滤博文进而检测事件。【方法】利用Word2Vec机器学习模型训练官方微博记录集,并将博文影响力、词基础权重以及官微相关性相结合,提出官方微博突显词检测方法,计算突显词博文的相似度,利用层次聚类算法对突显词博文聚类后选取合适的突显词描述事件,从而实现事件检测。【结果】实验结果表明,与TF-IDF和TextRank算法相比较,本文的突显词算法在准确率(63.5%)、召回率(85.5%)和F值(73.0%)方面表现更好。【局限】官方微博历史记录太少,初始的训练
【关键词】官方微博 相关词 突显词 官微事件 Word2Vec
【基金】国家自然科学基金项目“面向物联网安全的Multi-ISM协同建模及关键技术研究”(项目编号:61163025);; 内蒙古自然科学基金项目“基于个人微博的自动摘要关键技术研究”(项目编号:2015MS0621)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递