基于多元关系融合的科技文本主题识别方法研究
2019-01-15分类号:G254
【部门】中国科学院成都文献情报中心 中国科学技术信息研究所 中国科学院成都文献情报中心 中国科学院大学 山东理工大学科技信息研究所 中国科学院成都文献情报中心
【摘要】当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。
【关键词】文本主题识别 多元关系 数据融合 关系融合 主题聚类
【基金】国家自然科学基金项目“基于科学—技术主题关联分析的创新演化路径识别方法研究(编号:71704170)”;; 中国科学院知识产权信息服务专项“面向干细胞领域知识发现的科研信息化应用”(编号:KFJ-EWSTS-032)研究成果之一~~
【所属期刊栏目】中国图书馆学报
文献传递