基于关键词对逆文档频率的主题新颖度度量方法
2013-03-30分类号:TP311.13
【部门】南京大学信息管理学院 南京航空航天大学图书馆
【摘要】文章吸收词频原则、逆文档频率原则以及共词分析的思想,提出解决文档主题新颖度量化问题的4个原则,在此基础上定义带时间戳关键词逆文档频率、带时间戳关键词对逆文档频率、文档新颖度等3个概念,给出文档新颖度的计算公式,并对该公式的实用性与合理性进行实证研究。实验结果表明:文中提出的文档主题新颖度量化方法是科学的、合理的、可操作的,但是,不规范的标引词标引、关键词个数过少等现象对主题新颖度计量结果的准确性影响较大。
【关键词】文档主题新颖度 关键词 度量方法
【基金】国家社会科学基金项目(项目编号:09BTQ020); 江苏高校哲学社会科学研究重点项目(项目编号:2011ZDIXM035)资助
【所属期刊栏目】情报理论与实践
文献传递