构建面向实际应用的科技文献自动分类引擎
2022-06-28分类号:G254.1
【部门】中国科学院文献情报中心 中国科学院大学经济与管理学院图书情报与档案管理系
【摘要】文献分类是图书馆学情报学领域的一个传统研究问题。实用化的中图法自动分类系统最重要的一个要求就是能够将文献精确地自动分类到三级或四级类目之下,这意味着需要将特定文献较为精确地自动分类到上千个类目之下。为了构建面向实际应用的科技文献中图法自动分类引擎,本文基于层次分类思想,设计和实现了一个基于多层分类器集群的科技文献自动分类引擎系统,并重点解决了科技文献自动分类引擎建设中的四个关键问题:①如何获取并构建大规模高质量分类训练数据以提升自动分类效果;②如何设计和实现多层分类器集群以有效解决上千个类目自动分类的准确性;③如何面向现实要求来优化处理流程以提升分类速度;④如何设计和开放接口以支撑引擎的开放调用。最终构建了科技文献自动分类引擎,各项指标达到了实用化要求,初步实现了基于中图法的自动分类系统的实际应用。图4。表7。参考文献16。
【关键词】科技文献 自动分类 分类引擎 层次分类法 分类器集群
【基金】中国科学院文献情报能力建设专项课题“基于科技文献知识的人工智能(AI)引擎建设”(编号:E0290906)的研究成果之一
【所属期刊栏目】中国图书馆学报
文献传递