基于Heritrix的网络学术文献获取研究
2012-06-05分类号:G250.73
【部门】山东理工大学科技信息研究所
【摘要】通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。
【关键词】Heritrix 学术文献 文件格式 PDF 文档抓取
【基金】山东省自然科学基金项目“大规模学术文献并行处理与语义分类研究”(项目编号:ZR2011GL025); 山东理工大学青年教师发展支持计划研究成果之一
【所属期刊栏目】图书情报工作
文献传递