学术文本的结构功能识别——在关键词自动抽取中的应用
2017-06-24分类号:TP391.1
【部门】武汉大学信息管理学院信息检索与知识挖掘实验所
【摘要】当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,
【关键词】结构功能 关键词提取 学术文本 支持向量机 学习排序
【基金】国家自然科学基金面上项目“面向词汇功能的学术文本语义识别与知识图谱构建”(71473183);国家自然科学基金面上项目“基于多语义信息融合的学术文献引文推荐研究”(71673211)
【所属期刊栏目】情报学报
文献传递