运用图示法自动提取中文专利文本的语义信息
2015-11-05分类号:G306;G254
【部门】南京大学计算机科学与技术系 江苏省专利信息服务中心
【摘要】[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程]设计两种运用图结构的模型:1基于关键词的文本图模型;2基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘,并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能...
【关键词】图示法 专利信息提取 频繁子图挖掘 专利分类
【基金】
【所属期刊栏目】图书情报工作
文献传递