人文社科领域中文通用大模型性能评测

2024-07-05分类号：C1;TP18;TP391.1

【作者】赵志枭胡蝶刘畅沈思王东波

【部门】南京农业大学信息管理学院南京农业大学人文与社会计算研究中心南京理工大学经济管理学院

【摘要】[目的/意义]以人文社科领域为出发点，从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准，供人文社科相关领域研究人员参考。[方法/过程]设计7个人文社科领域相关的评测任务并选取对应指标，在此基础上，选取当前开源且性能较优的通用领域中文大模型，通过调用本地模型以问答形式完成领域化任务，并选取相关指标对其在人文社科领域的性能进行量化评测。[结果/结论]评测结果表明，在选取的开源模型中，无论是基座模型还是对话模型，Qwen性能最优、Baichuan2紧随其后、InternLM次之、Atom表现最差，此外，大多数情况下，相较于基座模型，对话模型表现出更加优越的性能。

【关键词】人文社科大模型评测领域知识学术文本

【基金】江苏省社科基金后期资助项目“人文社会科学大语言模型构建及应用研究”（项目编号：23HQBO63）研究成果之一~~

【所属期刊栏目】图书情报工作

文献传递