标题
  • 标题
  • 作者
  • 关键词

基于复合词生成的网络热点话题识别及描述算法

2017-01-22分类号:TP391.1

【作者】李霞  王连喜  路美秀  刘汉锋  刘俊延  
【部门】广东外语外贸大学语言工程与计算重点实验室  广东外语外贸大学信息学院  广东外语外贸大学图书馆  
【摘要】[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统
【关键词】网络热点话题识别  热词抽取  复合词聚类
【基金】国家自然科学基金项目“面向中国英语学习者的英文作文全自动评分算法及诊断反馈技术研究”(项目编号:61402119);; 广东省普通高校科技创新项目“面向网络英文文本的涉华舆情分析关键技术研究”(项目编号:2013KJCX0071)研究成果之一
【所属期刊栏目】图书情报工作
文献传递