标题
  • 标题
  • 作者
  • 关键词

专利文本主题建模中领域停用词自动选取研究

2018-06-05分类号:TP391.1

【作者】俞琰  赵乃瑄  
【部门】南京工业大学信息服务部  东南大学成贤学院电子与计算机学院  
【摘要】[目的 /意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法 /过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果 /结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。
【关键词】专利文本  主题建模  领域停用词  自动选取
【基金】教育部人文社科规划项目项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073);; 国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一
【所属期刊栏目】图书情报工作
文献传递