科技情报研究领域的大语言模型测评工作思考

2024-06-05分类号：TP18;G350.7

【作者】李晓松李增华赵柯然吕奕飞汤珊红高强赵英潇耿国桐

【部门】军事科学院军事科学信息研究中心

【摘要】[目的/意义]大语言模型的强交互、强理解、强生成的能力能够较好赋能科技情报研究，开展科技情报研究领域大语言模型测评是发挥大模型作用、提升大模型能力的重要手段。[方法/过程]界定科技情报研究及大模型测评的相关概念内涵，分析大模型在科技情报研究领域应用场景，指出测评作用和重点关注内容。在总结已有大模型测评要素并汲取情报研究特色要求的基础上，构建由测评任务、测评指标、测评数据、测评工具、测评队伍等组成的“五维一体”科技情报研究领域大模型测评总体框架，建立由基础知识能力、动态研究能力、专题研究能力、综合研究能力等组成的科技情报研究领域大模型测评维度和数据集。[结果/结论]研究结论有助于认识科技情报研究大模型测评思路和方法，为进一步推进大模型测评工作实践提供参考借鉴。

【关键词】科技情报研究大语言模型大模型测评测评框架测评数据集

【基金】国家社会科学基金项目“巩固提高新时代一体化战略体系和能力系统分析与重点问题研究”（项目编号：23ZDA119）;; 国家自然科学基金项目“数据驱动的XXXX评估指标自动生成与自适应构建方法研究”（项目编号：71841052）的成果

【所属期刊栏目】情报理论与实践

文献传递