面向学术资源的术语区分能力的测度方法研究
2019-10-24分类号:G254
【部门】南京大学信息管理学院 江苏省数据工程与知识服务重点实验室 威斯康星大学密尔沃基分校信息研究学院
【摘要】改进索引术语质量的衡量方法可以有效提高IR系统的检索效率,但术语的固有属性易受文档长度影响,难以全面衡量术语质量。对此,本文从术语内在的区分性出发,借鉴词袋模型的基本思想,提出了术语区分能力(term discriminative capacity,TDC)这一理论及3种不同的计算方法。本文还采集了Web of Science的3个子数据库中包含4个著录项的900条记录作为实验数据,来实现TDC的大规模计算,并观察3种算法在实践中的差异。经过实验分析得出,计算术语区分能力的最佳方法为TDC-T,该算法在多个方面表现稳定,且不受DF值的影响,可以作为衡量术语质量的全新指标,记为TDC。但是本研究所选取的A&HCI数据库的记录较少,这或许会造成另两个领域计算结果的失衡。
【关键词】索引术语 词袋模型 术语区分能力 术语空间密度 术语质量评价
【基金】国家自然科学基金青年科学基金项目“面向学术资源的TSD与TDC测度及分析研究”(71503121);; “江苏青年社科英才”人才培养项目;; “南京大学仲英青年学者”人才培养项目
【所属期刊栏目】情报学报
文献传递