标题
  • 标题
  • 作者
  • 关键词

一种基于HowNet语义计算的综合特征词权重计算方法

2018-09-30分类号:TP391.1

【作者】孙丽莉  张小刚  
【部门】西安交通大学人文学院  塔里木大学学报编辑部  塔里木大学信息工程学院  浙江大学计算机学院  
【摘要】传统文本特征词提取方法采用TF-IDF计算文本特征词的权重,但TF-IDF方法只使用了文本中的词频因素,体现不出特征词的位置信息,也忽略了特征词之间的语义相似关系,降低了提取特征词的准确性。针对此问题,文章提出了一种综合的文本特征词权重计算方法,该方法在计算特征词权重时兼顾了特征词的词频、位置和词义信息。实验结果表明,该方法是有效的,且能在一定程度上提高文本相似度结果的区分度和聚类效果。
【关键词】知网  词频与反文档频率  权重计算  语义相似度计算
【基金】国家自然科学基金资助项目(61562072);; 新疆维吾尔自治区高校人文社科重点研究基地重点项目(090113B06)
【所属期刊栏目】统计与决策
文献传递