基于查询特征分析的新闻意图自动识别
2014-11-03分类号:TP391.41;G254
【部门】西南大学计算机与信息科学学院 武汉大学信息资源研究中心
【摘要】从Sogou查询日志中选取样本查询且进行人工标注,通过对标注后新闻查询的分析,提出能用于识别新闻意图的新特征,即查询表达式特征、查询随时间分布特征以及点击结果特征。根据这3个特征,利用决策树分类器实现查询中新闻意图的自动识别,结果发现:1新闻类查询的查询目标主要集中在特定主题信息以及娱乐类信息方面,其查询主题大多为娱乐、政治、体育与经济类信息;2相对非新闻查询,新闻查询具有更可能包含实体、随时间分布波动较大、点击结果之间相似度更高的特点;3本方法对查询中新闻意图的识别效果较好,其宏平均准确率、召回率、F值分别为0.76、0.73、0.74。
【关键词】查询意图 新闻查询 新闻意图 查询分类
【基金】国家自然科学基金面上项目“基于语言模型的通用实体检索建模及框架实现研究”(项目编号:71173164); 国家社会科学基金青年项目“基于情景分析的网络舆情事件应急管理动态调控机制研究”(项目编号:13CGL132)研究成果之一
【所属期刊栏目】图书情报工作
文献传递