基于词句重要性的中文专利关键词自动抽取研究
2018-06-08分类号:TP391.1
【部门】华东理工大学 石河子大学
【摘要】[目的/意义]专利关键词是对专利核心内容的概括,高效准确地抽取专利关键词不仅可以辅助人们对专利的快速查找,同时对专利分类、聚类、翻译等具有重要意义。[方法/过程]提出了"关键词在关键句中"的关键词抽取新思路。首先构建了一个联合句网络语义图特征和启发式规则特征的专利摘要句排序模型,然后仅选择Top-KS%的句子参与关键词计算,同时将句子语义权重参数引入到关键词权重计算过程中,从而使得句子的重要性传递到句中的词上。[结果/结论]在真实中文专利数据集中实验表明,从中文专利中选择适当比例关键句参与关键词抽取计算,相较于传统关键词抽取算法F值提升了6%~13%左右,有效地降低原始文档的噪声数据,提升了关键词抽取的效果。
【关键词】中文专利 关键句 句排序 专利关键词 自动抽取
【基金】国家自然科学基金项目“面向事件分析的信息意图检测、建模与群体意图推理技术研究”(项目编号:61462073);; 上海市科学技术委员会项目“基于知识库的数据搜素引擎技术”(项目编号:17DZ1101003)的研究成果
【所属期刊栏目】情报理论与实践
文献传递