标题
  • 标题
  • 作者
  • 关键词

融合多特征的TextRank关键词抽取方法

2017-08-18分类号:TP391.1

【作者】李航  唐超兰  杨贤  沈婉婷  
【部门】广东工业大学计算机学院  广东工业大学艺术与设计学院  
【摘要】[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模
【关键词】TextRank算法  关键词抽取  神经网络  平均信息熵
【基金】广东省部产学研专项资金企业创新平台“面向家电行业的用户数据挖掘系统研究及体验式设计创新服务”(编号:2013B090800042)
【所属期刊栏目】情报杂志
文献传递