在线社区中人工智能生成内容的识别方法研究

2023-08-14分类号：G250.7;TP18

【作者】邓胜利汪璠王浩伟

【部门】武汉大学信息管理学院

【摘要】[目的/意义]生成式人工智能会对在线社区造成一定程度的AI信息污染，研究多种AIGC识别方法对防范快速进化的生成式人工智能带来的负面影响有重要意义。[研究设计/方法]首先在以新浪微博54个大类主题为主的多个在线社区平台中构建了HAC数据集，其中包含100,873条分别由人类和生成式人工智能撰写的信息；然后探究当前6个主流深度学习和7个机器学习方法是否能识别在线社区中的信息是由人类还是由生成式人工智能所撰写；最后提出了一种BEM-RCNN方法进一步提高AIGC的识别精度。[结论/发现]从构建的数据集中可以看出，生成式人工智具有强大的“类人表达”，能够模拟人类在社交媒体平台上发布和回复内容。实验结果表明，提出的方法准确度达到96.4%，能够很好地识别在线社区上的内容是由人类还是AI撰写。在精度、召回率、F1-值和准确度上均优于BERT、ERNIE、TextRNN等其他13种主流的方法，验证了其性能优势。同时，大量探究实验也证明了当前主流的机器学习方法虽然精度低于此方法，但是也能够识别部分AIGC。[创新/价值]使用多种方法去识别社交媒体上的AIGC，防范生成式人工智能对社交媒体平台造成的信息污染。

【关键词】生成式人工智能 AIGC 在线社区机器学习 AI信息污染

【基金】国家自然科学基金项目“信息生态链视角下在线知识社区用户贡献行为评价及预测研究”（71974149）;; 国家社会科学基金重大项目“人本人工智能驱动的信息服务体系重构与应用研究”（22&ZD324）研究成果之一

【所属期刊栏目】图书情报知识

文献传递