大数据处理系统中面向GPU加速DNN推理的模型共享

2022-03-24分类号：TP311.13

【作者】丁光耀陈启航徐辰钱卫宁周傲英

【部门】华东师范大学数据科学与工程学院

【摘要】近年来,学术和工业界广泛利用大数据处理系统来处理视频分析等领域基于深度神经网络(deep neural networks,DNN)的推理负载。在这种场景下,因大数据系统中多个并行推理任务重复加载相同且只读的DNN模型,导致系统无法充分利用GPU资源,成为了推理性能提升的瓶颈。针对该问题,该文提出了一个面向单GPU卡的模型共享技术,在DNN推理任务之间共享同一份模型数据。在此基础上,为了使模型共享技术作用于分布式环境下的每一块GPU,该文还设计了支持多GPU卡模型共享的分配器。将上述优化技术集成到在GPU平台上运行的Spark中,实现了一个支持大规模推理负载的分布式原型系统。实验结果表明,针对基于YOLO-v3的交通视频处理负载,相对于未采用模型共享技术的系统,模型共享技术能够提升系统吞吐量达136%。

【关键词】大数据处理系统 DNN推理 GPU 显存模型共享

【基金】国家自然科学基金资助项目(61902128)

【所属期刊栏目】清华大学学报(自然科学版)

文献传递