基于引文网络社区发现的数据推荐研究

2021-08-24分类号：G353.1

【作者】李成赞黎建辉王学志沈志宏杜一

【部门】中国科学院计算机网络信息中心中国科学院大学

【摘要】科学数据是科研活动的输入和产出,是科技创新的核心驱动要素。科学数据只有开放共享、广泛传播才能使其价值最大化,然而当前数据出版物的利用率和传播效率整体偏低。为了加速科学数据的传播和重用,提升科学数据的开放共享成效,本文提出了一种基于引文网络社区发现的数据推荐方法。该方法在构建"数据集-论文-作者"之间关联网络的基础上,利用Louvain算法,从合著、共引和耦合三种关联方式分别进行社区发现,然后结合TF-IDF(term frequency-inverse document frequency)及余弦相似度算法,计算数据集与学术论文的相似性,并以此构建数据集与论文所在社区之间的关联,并进行数据集推荐。实验结果证明,基于引文网络社区发现的数据推荐方法,能够有效地发现对数据集潜在感兴趣的论文或作者。同时,发现在数据推荐效果的贡献度和稳定性方面,基于耦合关系的社区发现表现最优,合著关系次之,而引用关系则受出版时间长短和被引次数的影响导致推荐效果差异较大。

【关键词】数据推荐引文网络社区发现相似性度量

【基金】国家重点研发计划项目“科学大数据管理系统”(2016YFB1000600)

【所属期刊栏目】情报学报

文献传递