基于BERT和引文上下文的文献表征与检索方法研究
2020-05-13分类号:G252.7
【部门】北京大学信息管理系
【摘要】[目的/意义]在面向科技文献的检索服务中,基于语义检索的方式近年来愈发受到人们的重视,而引文上下文中包含了其他同行专家对被引文献的提炼、评价、总结等关键信息,能够用于提取被引文献的重要语义信息。同时,BERT词嵌入方法是当前许多文本处理任务中的重要手段。基于此,文章提出了一种新的基于BERT和引文上下文的文献向量表征方法,旨在有效实现对文献的语义表征及检索。[方法/过程]基于arXiv数据库中“计算语言学”领域的相关文献数据,利用引文上下文将被引文献映射到全局唯一ID,构造包含施引文献引文上下文和被引文献ID的训练语料,通过BERT预训练模型开展训练,将施引文献引文上下文与被引文献ID表征在同一向量空间,进而实现语义计算和检索。[结果/结论]与基于文献全文开展的文献检索方式相比,基于BERT和引文上下文的文献检索方法能够隐含编码被引文献引用强度、被引文献核心概念等关键信息,从而能够更好地表征被引文献。随后,本文开展了语义检索和相似文献发掘实验,结果证明该检索方法切实有效。
【关键词】引文上下文 BERT 文献表征 语义检索 文献关系挖掘
【基金】
【所属期刊栏目】情报理论与实践
文献传递