结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究
2018-02-25分类号:TP391.1
【部门】东北林业大学信息与计算机工程学院 同方知网(北京)技术有限公司
【摘要】【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57
【关键词】自动摘要 Doc2Vec K-means 信息熵
【基金】中央高校基本科研业务费专项资金项目"基于社会网络特征提取的群体性突发事件预警方法研究"(项目编号:2572014DB05);; 国家自然科学基金项目"群体性突发事件预警的超网络方法研究"(项目编号:71473034)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递