基于过滤与权重平滑策略的自动标引方法研究
2014-02-28分类号:TP391.1
【部门】中国科学技术信息研究所 中国机械工业集团有限公司
【摘要】文章提出一种基于过滤和权重平滑策略的标引词自动抽取方法,该方法采用可变停用词作为文档分隔手段,采用词性、词频、词语位置等信息作为标引词过滤的手段,采用合理的权重倾向策略保证了标引词抽取在词组和单词中的均衡。方法综合利用了词性标注等自然语言处理领域的研究成果和统计学信息,不依赖词汇在文档集中的分布规律,可以直接从单篇文档抽取标引词,在待标引文档篇幅受限的情况下具有良好的运行性能。
【关键词】词性过滤规则 权重 自动标引
【基金】中国科学技术信息研究所重点工作课题“多语言科技信息语义关联网络构建及其应用”(项目编号:ZD2012-3-3); 中国科学技术信息研究所预研项目“基于句子解析的科技文献自动标引改进方法研究”(项目编号:YY-201218)的成果
【所属期刊栏目】情报理论与实践
文献传递