标题
  • 标题
  • 作者
  • 关键词

与自然语言查询表述相关的词语分析

2012-09-05分类号:G254

【作者】熊文新  
【部门】北京外国语大学中国外语教育研究中心  
【摘要】考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。
【关键词】查询语句  检索项  语料库  词语分布  信息检索
【基金】国家社会科学基金项目“服务信息检索的自然语言”(项目编号:11BYY051); 教育部新世纪优秀人才支持计划(项目编号:NCET-11-0591)研究成果之一
【所属期刊栏目】图书情报工作
文献传递