LUCENE搜索算法剖析及优化研究
2014-12-15分类号:TP391.3
【部门】上海外国语大学图书馆
【摘要】介绍了开源搜索引擎Lucene的索引与搜索过程,剖析了Lucene的基于向量空间模型的文档相关度模型和基于TF-IDF的权重计分算法,在分析其文档相关度分值计算公式的基础上,指出了可通过修正评分机制和优化向量空间模型的算法来改进Lucene的搜索功能和性能的途径。并提出了一种基于离散随机最优化的快速搜索算法,以期提升Lucene在大文档集实时搜索时的性能。
【关键词】Lucene 搜索算法 向量空间模型 TF-IDF 离散随机最优化
【基金】国家社科基金“泛在知识环境下图书馆知识发现技术与应用研究”项目(编号:12CTQ006); 上海市教育委员会科研创新项目(编号:14ZS073)的资助
【所属期刊栏目】图书馆杂志
文献传递