融入术语知识的专利主题发现方法
2018-11-05分类号:G255.53
【部门】南京工业大学信息服务部 东南大学成贤学院电子与计算机学院
【摘要】[目的 /意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法 /过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果 /结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。
【关键词】专利分析 主题发现 术语
【基金】教育部人文社会科学规划项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073);; 国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一
【所属期刊栏目】图书情报工作
文献传递