大规模主题词自动标引方法
2022-05-24分类号:TP391.1
【部门】中国科学技术信息研究所 富媒体数字出版内容组织与知识服务重点实验室(国家新闻出版署)
【摘要】现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。
【关键词】主题标引 分布式词向量 多标签文本分类 关键词抽取 语义标签
【基金】中国科学技术信息研究所创新研究基金面上项目“基于论文学科分类的跨学科合作网络研究”(MS2022-04);; 中国工程科技知识中心建设项目“知识组织体系建设”(CKCEST-2022-1-29)
【所属期刊栏目】情报学报
文献传递