基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究
2017-04-25分类号:TP391.1
【部门】中国科学院文献情报中心 中国科学院大学
【摘要】【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步
【关键词】WMD TextRank 语义相似 主题句识别 外部特征
【基金】
【所属期刊栏目】数据分析与知识发现
文献传递