标题
  • 标题
  • 作者
  • 关键词

基于后缀树聚类的主题搜索引擎研究

2017-12-19分类号:TP391.3

【作者】韦美峰  王亚民  
【部门】西安电子科技大学经济与管理学院  
【摘要】[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度
【关键词】主题过滤  后缀树聚类  搜索引擎
【基金】
【所属期刊栏目】情报理论与实践
文献传递