基于新词发现的网络新闻热点排名
2015-03-20分类号:TP391.1
【部门】河北大学计算机科学与技术学院
【摘要】[目的 /意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法 /过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果 /结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。
【关键词】关联规则 未登录词 互信息 热点度
【基金】国家自然科学基金项目“关系Top-N查询引擎;排序函数的研究”(项目编号:61170039)研究成果之一
【所属期刊栏目】图书情报工作
文献传递