标题
  • 标题
  • 作者
  • 关键词

基于语义和引用加权的文献主题提取研究

2016-06-16分类号:G353.1

【作者】杨春艳  潘有能  赵莉  
【部门】宁波大学图书馆与信息中心  浙江大学公共管理学院  
【摘要】[目的 /意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法 /过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建LabeLed-Lda主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果 /结论]以Pub med生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。
【关键词】Labeled-LDA模型  引用内容  主题提取
【基金】国家社会科学基金项目“学术型大数据知识组织与服务标准研究”(项目编号:15FTQ002)研究成果之一
【所属期刊栏目】图书情报工作
文献传递