标题
  • 标题
  • 作者
  • 关键词

ChatGPT生成中文学术内容分析——以情报学领域为例

2023-09-21分类号:TP18;G353.1

【作者】郭鑫   王一博   王继民
【部门】北京大学信息管理系  
【摘要】学术写作是ChatGPT的主要应用方向之一。本文以情报学领域的核心期刊论文为研究对象,首先从词、句、篇3个维度出发,使用词性标注、n-gram等文本处理方法对ChatGPT和人类产出的论文引言内容进行对比分析。进一步地,将判断学术内容是否由ChatGPT生成视作一个二元分类任务,采用朴素贝叶斯、支持向量机、随机森林算法进行文本分类实验,并使用SHAP方法对文本结构特征的重要性进行分析。研究发现:ChatGPT在描述有具体时间节点的事实性信息和引用政策文件或研究报告等方面表现较弱,生成引言的篇幅较集中,撰写论文相较于人类更加“循规蹈矩”;查重工具通常无法准确检测出ChatGPT生成内容的原创性,但分类模型可以比较容易地区分出引言是否由ChatGPT生成,平均句子长度、词汇多样性和文本长度是影响分类结果最重要的文本结构特征。
【关键词】ChatGPT  论文写作  情报学  文本分类  查重检测关键词
【基金】国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”(项目编号:20ATQ007)研究成果
【所属期刊栏目】图书馆论坛
文献传递