标题
  • 标题
  • 作者
  • 关键词

一种基于语义组块特征的改进Cosine文本相似度计算方法

2017-06-25分类号:TP391.1

【作者】白如江  冷伏海  廖君华  
【部门】山东理工大学科技信息研究所  中国科学院科技战略咨询研究院  
【摘要】【目的】利用文本语义组块特征提升Cosine文本相似度计算性能。【方法】获取NSF资助的关于碳纳米管研究领域的项目数据,进行词干还原、词性标注等预处理;利用条件随机场模型实现文本内容的语义组块标注;在此基础上实现基于语义组块特征的改进Cosine文本相似度计算,并与未标注的数据进行相似度计算比较,分析实验结果。【结果】实验证明基于语义组块特征的改进Cosine相似度计算结果比原始文本Cosine相似度计算结果相似度均有不同程度的提升,在实验数据中最高的相似度提升了26%。【局限】依赖于语义组块标注性能。【
【关键词】文本相似度  语义组块  向量空间模型  本体
【基金】国家社会科学基金项目“未来新兴科学研究前沿识别研究”(项目编号:16BTQ083)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递