标题
  • 标题
  • 作者
  • 关键词

PS-Hybrid:面向大规模推荐模型训练的混合通信框架

2021-10-14分类号:TP391.3;TP18

【作者】苗旭鹏  张敏旭  邵蓥侠  崔斌  
【部门】北京大学信息科学技术学院  北京邮电大学计算机学院  
【摘要】传统的分布式深度学习训练系统大多基于参数服务器和全局规约通信框架,缺陷日益显著:参数量大,基于全局规约的去中心化通信架构由于无法存储全量模型而无法使用;通信量大,基于参数服务器的中心化通信架构面临着严重的通信瓶颈。为了解决以上问题,该文提出了面向大规模深度学习推荐模型的混合通信训练框架PS-Hybrid,分离了嵌入层参数和其他参数的通信逻辑,实现了PS-Hybrid原型系统。实验结果证明了所提出的混合通信方案能够比纯参数服务器方案取得更好的性能,在16个计算节点下比TensorFlow-PS加速48%。
【关键词】推荐模型  分布式深度学习  参数服务器  全局规约
【基金】国家重点研发计划项目(2018YFB1004403);; 国家自然科学基金项目(61832001);; 北京大学腾讯协同创新实验室项目
【所属期刊栏目】清华大学学报(自然科学版)
文献传递