标题
  • 标题
  • 作者
  • 关键词

学术搜索情境下困难搜索的自动识别研究

2024-09-02分类号:G252.7

【作者】张晓娟   杨诗涵   郭佳润   桂思思
【部门】四川大学公共管理学院  南京农业大学信息管理学院  
【摘要】[目的/意义] 通过抽取有效分类特征,实现对学术搜索情境下困难搜索的自动识别。[方法/过程]人工标注万方数据库用户行为日志数据中的1125个搜索会话;从查询表达式、用户单类行为、用户多类行为间转换3个维度提出分类特征;对比分析所提出分类特征在GBDT、神经网络、LightGBM及XGboost 4种分类模型中的分类效果。[结果/结论]提出的特征集合能有效识别困难搜索,且优于已有研究中所提出的特征;提出的3类特征集合具有一定的独立分类效果,且相对其他两类分类集合,基于用户单类行为的特征在多数情况下取得了最好的实验性能。[局限]由于公开可用数据集的有限性,本研究只在一个数据集上对所提出特征进行了验证;分类特征来源于日志数据,故无法覆盖用户生理、心理所反映的特征;人工标注效率低导致数据集有限。
【关键词】学术搜索  困难搜索识别  万方日志分析  搜索会话  分类特征提取
【基金】国家社会科学基金一般项目“时间感知的个性化学术文献引文推荐研究”的成果,项目编号:21BTQ072
【所属期刊栏目】情报理论与实践
文献传递