学术搜索情境下困难搜索的自动识别研究
2024-09-02分类号:G252.7
【部门】四川大学公共管理学院 南京农业大学信息管理学院
【摘要】[目的/意义] 通过抽取有效分类特征,实现对学术搜索情境下困难搜索的自动识别。[方法/过程]人工标注万方数据库用户行为日志数据中的1125个搜索会话;从查询表达式、用户单类行为、用户多类行为间转换3个维度提出分类特征;对比分析所提出分类特征在GBDT、神经网络、LightGBM及XGboost 4种分类模型中的分类效果。[结果/结论]提出的特征集合能有效识别困难搜索,且优于已有研究中所提出的特征;提出的3类特征集合具有一定的独立分类效果,且相对其他两类分类集合,基于用户单类行为的特征在多数情况下取得了最好的实验性能。[局限]由于公开可用数据集的有限性,本研究只在一个数据集上对所提出特征进行了验证;分类特征来源于日志数据,故无法覆盖用户生理、心理所反映的特征;人工标注效率低导致数据集有限。
【关键词】学术搜索 困难搜索识别 万方日志分析 搜索会话 分类特征提取
【基金】国家社会科学基金一般项目“时间感知的个性化学术文献引文推荐研究”的成果,项目编号:21BTQ072
【所属期刊栏目】情报理论与实践
文献传递