基于层次聚类的图书元数据语义聚合研究
2024-06-12分类号:G254
【部门】南京大学信息管理学院
【摘要】实现多源异构的图书资源的深度融合,有利于拓展图书服务的广度和全面性,促进智慧图书馆体系的建设,其中,多样异构、名称不一的图书元数据的语义聚合是深度融合多来源图书信息的关键所在。为此,本文通过对比分析图书在不同平台分布的元数据的差异性,以BERT-Base-Chinese作为词嵌入模型,从元数据字段本身、属性值两个角度,分析元数据之间的语义相似度和距离,并基于距离矩阵实现层次聚类,自动构建元数据之间的映射对应关系,实现名称或属性相似的图书元数据之间的语义聚合。实验结果表明,该模型识别的映射关系精准度达到了93.33%,大大降低了元数据聚集与融合过程中需付出的人力成本。此外,图书元数据语义聚合方式获得的结果具备横向扩展的空间,聚合过程亦可迭代复用,在其他信息聚合场景也具有一定的兼容性和通用性。
【关键词】图书元数据 层次聚类 BERT模型 语义相似度 语义距离
【基金】国家社会科学基金项目“面向国家安全的科技情报态势感知研究”(项目编号:21BTQ012)的研究成果之一
【所属期刊栏目】图书馆建设
文献传递