基于文本特征融合的衍生性网络健康谣言识别模型研究

2023-07-20分类号：G206;TP391.1

【作者】陈燕方周晓英

【部门】中国人民大学图书馆中国人民大学信息资源管理学院

【摘要】[目的/意义]衍生性网络健康谣言生成门槛低，周期性强，危害影响深远，是网络健康谣言识别与治理中需要优先解决的重点问题之一，也是重要突破口。[方法/过程]借助深度语义表征和聚合方法，探索衍生性网络健康谣言文本内容的六要素特征；通过结合网络健康谣言的分布式语义特征预训练模型，构建包括六个类别、6287个词汇的网络健康谣言文本内容要素词库；在将健康谣言标题特征、内容文本六要素特征以及主体内容文本特征进行统一的向量空间表示与融合后，构建面向多源文本特征融合的网络健康谣言识别模型。[结果/结论]模型的实证研究表明：与已有的对照模型相比，本文所提出的文本特征融合模型使衍生性网络健康谣言识别的准确率有较好的提升，且丰富的可拓展健康谣言要素词库可为后续的研究提供较好的资源支持。

【关键词】网络健康谣言健康谣言识别文本特征文本挖掘

【基金】中国人民大学公共健康与疾病预防控制文理交叉重大创新平台“中央高校建设世界一流大学（学科）和特色发展引导专项资金”;; 国家社会科学基金重点项目“全媒体语境下的信息流行病学理论与实践研究”（项目编号：20AZD132）研究成果之一

【所属期刊栏目】图书情报工作

文献传递