标题
  • 标题
  • 作者
  • 关键词

基于LDA模型的移动投诉文本热点话题识别

2017-02-25分类号:TP391.1

【作者】方小飞  黄孝喜  王荣波  谌志群  王小华  
【部门】杭州电子科技大学计算机学院  中国计量大学  
【摘要】【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题
【关键词】移动投诉  k-means  话题识别  LDA模型
【基金】国家自然科学基金青年基金项目“引入涉身认知机制的汉语隐喻计算模型及其实现”(项目编号:61103101);国家自然科学基金青年基金项目“基于马尔科夫树与DRT的汉语句群自动划分算法研究”(项目编号:61202281);; 教育部人文社会科学研究青年基金项目“面向信息处理的汉语隐喻计算研究”(项目编号:10YJCZH052)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递