标题
  • 标题
  • 作者
  • 关键词

基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究

2017-04-25分类号:TP391.1

【作者】王子璇  乐小虬  何远标  
【部门】中国科学院文献情报中心  中国科学院大学  
【摘要】【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步
【关键词】WMD  TextRank  语义相似  主题句识别  外部特征
【基金】
【所属期刊栏目】数据分析与知识发现
文献传递