面向专利技术主题分析的技术主题获取
2015-05-13分类号:G306
【部门】北京信息科技大学网络文化与数字传播北京市重点实验室 北京城市系统工程研究中心
【摘要】文章利用文本挖掘技术抽取技术主题和规范化主题,为技术主题分析提供基础工作。根据技术主题在专利标题中的分布特点和技术主题分析时主题词的统计长度特征,提出一种主题度计算方法,将主题度较大的词作为主题词;通过计算相似度获得主题词的同义词对,借助统计特征对主题词规范化表示。实验结果表明,文章提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时文章提出的主题规范化方法具有较大的意义。
【关键词】专利 主题分析 技术主题抽取 相似度 规范化
【基金】国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304); 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:kz201311232037)的成果之一
【所属期刊栏目】情报理论与实践
文献传递