VSM信息检索中的数据稀疏问题分析与规避策略
2013-01-05分类号:G354
【部门】东莞理工学院城市学院图书信息中心
【摘要】以矩阵理论作为研究的切入点,将经典向量空间模型中常用的向量和集合以矩阵的形式加以重构,并认为基于向量内积法的相似性计算与相应矩阵的乘法运算等价。结合稀疏矩阵和数据稀疏的定义,分析VSM信息检索背景下数据稀疏产生的原因;同时,讨论三种情形下数据稀疏对相似性计算的共同影响———部分毫无意义的时间复杂度。最后,给出规避数据稀疏问题的三层策略:文本级策略、文本集级策略和矩阵级策略。
【关键词】向量空间模型 信息检索 数据稀疏 规避策略
【基金】
【所属期刊栏目】图书情报工作
文献传递