标题
  • 标题
  • 作者
  • 关键词

基于容器云的分布式深度学习实验平台构建

2022-03-25分类号:TP311.52;TP18;G642.423

【作者】应毅  刘亚军  任凯  
【部门】三江学院计算机科学与工程学院  东南大学计算机科学与工程学院  南京工业大学浦江学院  
【摘要】该文针对神经网络模型训练过慢、集群部署缺乏弹性问题,采用CPU+GPU混合架构,利用Docker和Kubernetes系统搭建底层容器云基础,以TensorFlow作为上层机器学习框架,构建了分布式深度学习实验平台,并详述了GPU镜像制作、计算节点GPU支持、Kubernetes集群搭建、Tensor Flow集群部署等实验平台建设细节。两个图片识别实验表明,该实验平台具有良好的性能优势和可扩展性,达到了应用部署自动化、硬件资源弹性伸缩、提升模型训练速度的目标,为人工智能实验平台建设提供了有益的思路,并起到推广作用。
【关键词】深度学习  分布式训练  TensorFlow  Kubernetes  Docker  GPU计算
【基金】江苏省现代教育技术研究智慧校园专项课题(2020-R-84352);; 教育部全国职业教育教师企业实践基地“产教融合”专项课题研究项目“人工智能职业技能等级评价标准研究”;; 三江学院校级科研重大项目(2019SJKY006)
【所属期刊栏目】实验技术与管理
文献传递