标题
  • 标题
  • 作者
  • 关键词

面向词权重的主题识别应用研究

2019-08-16分类号:TP391.1

【作者】阮光册  夏磊  
【部门】华东师范大学经济与管理学部信息管理系  华东师范大学一带一路与全球发展研究院  上海图书馆会展中心  
【摘要】[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高。[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率。[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度。通过新闻文本数据验证了该方法的可行性与有效性。[局限]对词语的局部语义特征描述需要大数据量的计算。
【关键词】主题模型  LDA模型  FTIDF  N-gram  权重  主题识别
【基金】上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”的成果之一,项目编号:2016BTQ002
【所属期刊栏目】情报理论与实践
文献传递