标题
  • 标题
  • 作者
  • 关键词

基于混合机器学习模型的多文档自动摘要

2018-09-08分类号:TP391.1;TP181

【作者】唐晓波  翟夏普  
【部门】武汉大学信息管理学院  武汉大学信息资源研究中心  
【摘要】[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。
【关键词】混合机器学习  多文档摘要  语义结构模型  信息抽取
【基金】国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”的成果之一,项目编号:71673209
【所属期刊栏目】情报理论与实践
文献传递