标题
  • 标题
  • 作者
  • 关键词

Web信息主题采集技术研究

2005-04-18分类号:G354

【作者】李春旺
【部门】中国科学院文献情报中心 北京 100080
【摘要】简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见。
【关键词】Web搜索引擎  主题采集  技术
【基金】
【所属期刊栏目】图书情报工作
文献传递