《基于kubernetes的深度学习实践》由会员分享,可在线阅读,更多相关《基于kubernetes的深度学习实践(21页珍藏版)》请在金锄头文库上搜索。
,斗鱼基于kubernetes的深度学习实践,从混沌到体系化,目录 CONTENTS,1、深度学习在斗鱼的应用场景,2、深度学习应用上容器的一些问题,3、深度学习应用管理,01 深度学习在斗鱼的应用场景,业务场景,大数据场景,搜索排序,业务场景,图像识别 语音识别 logo识别 文本识别,视频场景,业务场景,在线推理,离线训练,技术栈,A,B,C,Tensorflow,Pytorch,Kubeflow,02 深度学习应用上容器的一些问题,集群规划,在线推理尽可能使用CPU,一个集群or多个集群?,离线训练是GPU密集型应用,集群规划,GPU调度,GPU,GPU,node1,node2,node3,job1,job3,GPU,GPU,GPU,GPU,GPU job2,job4,假如job4需要三块GPU, 此时该如何调度?,Gang Scheduling: 一组容器作为整体调 度 DRF:谁要的资源少, 谁的优先级高 binpack:尽量把已有 节点填满 proportion:任务量 超出资源量开始排队,Volcano,GPU资源利用率,GPU虚拟化 开源项目: manager,GPU是独占的 推理占用GPU资源较低,gpu-manager示例,03 深度学习应用管理,整体架构,训练任务流程,任务管理,镜像构建,应用发布,应用访问,Thanks 谢谢聆听!,