标题
  • 标题
  • 作者
  • 关键词

PDF格式网络中文学术文献的识别与检索——基于学术文献文体特征的研究

2011-05-05分类号:G252.7

【作者】邹永利  冯文炬  
【部门】中山大学资讯管理系  深圳图书馆  
【摘要】学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。
【关键词】网络学术文献  文体特征  PDF文件  信息检索
【基金】国家社会科学基金项目“网络中文学术文献的自动识别与检索研究——基于学术文献文体;链接及图文相关度的研究与系统开发”(项目编号:10BTQ049)研究成果之一
【所属期刊栏目】图书情报工作
文献传递