标题
  • 标题
  • 作者
  • 关键词

不同语料下基于LDA主题模型的科学文献主题抽取效果分析

2016-03-23分类号:G254

【作者】关鹏  王曰芬  傅柱  
【部门】南京理工大学经济管理学院  巢湖学院应用数学学院  
【摘要】[目的/意义]潜在狄利克雷分布(Latent DirichLet aLLocation,LDa)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDa主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDa在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDa主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘...
【关键词】主题模型  LDA  主题抽取  效果分析  科学文献
【基金】国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(项目编号:71373124); 安徽省高校自然科学基金研究项目(项目编号:KJ2013B165、KJ2015A270)研究成果之一
【所属期刊栏目】图书情报工作
文献传递