标题
  • 标题
  • 作者
  • 关键词

基于多示例学习框架的专利文本分类方法研究

2018-06-21分类号:G255.53;G254.1

【作者】包翔  刘桂锋  杨国立  
【部门】江苏大学科技信息研究所  
【摘要】[目的/意义]为了满足对海量专利数据进行自动分类的需求,提出了一种基于多示例学习框架的专利文本分类方法。[方法/过程]将专利文本当作包,专利文本的标题和摘要分别作为两个示例,通过数学建模将专利文本映射成无向图,构建基于无向图的高斯核函数,运用SVM方法训练分类器,完成对无标记专利文本的预测。[结果/结论]实验结果表明,该方法相较于传统的SVM、KNN方法能更加有效准确地预测未标记专利文本的分类,为文本挖掘领域相关方向的研究提供新的视角。[局限]实验样本数量有待进一步丰富。
【关键词】专利文本分类  多示例学习  分类方法  支持向量机
【基金】教育部人文社会科学研究青年基金项目“基于超图模型的专利文本多标签分类研究”(项目编号:14YJC870014);; 江苏省社会科学基金项目“Intelligence导向的情报学知识体系与核心问题域研究”(项目编号:17TQB008)的成果之一
【所属期刊栏目】情报理论与实践
文献传递