基于LDA模型的移动投诉文本热点话题识别
2017-02-25分类号:TP391.1
【部门】杭州电子科技大学计算机学院 中国计量大学
【摘要】【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题
【关键词】移动投诉 k-means 话题识别 LDA模型
【基金】国家自然科学基金青年基金项目“引入涉身认知机制的汉语隐喻计算模型及其实现”(项目编号:61103101);国家自然科学基金青年基金项目“基于马尔科夫树与DRT的汉语句群自动划分算法研究”(项目编号:61202281);; 教育部人文社会科学研究青年基金项目“面向信息处理的汉语隐喻计算研究”(项目编号:10YJCZH052)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递