激活GPU拓扑资源调度前,您需要安装并配置相关组件。本文介绍如何安装GPU拓扑感知调度相关组件以及在集群中开启GPU拓扑感知调度能力。
前提条件
已创建ACK Pro集群,且集群的实例规格类型选择为GPU云服务器。更多信息,请参见创建Kubernetes托管版集群。
系统组件版本满足以下要求。
组件
版本要求
Kubernetes
1.18.8及以上版本
Nvidia
418.87.01及以上版本
训练框架NCCL版本
2.7+
操作系统
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
显卡
V100
操作步骤
登录容器服务管理控制台,在左侧导航栏选择集群。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在云原生AI套件页面,单击一键部署。
在一键部署页面的调度区域,选中调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度)复选框,然后单击下方的部署云原生AI套件。更多关于部署云原生AI套件的配置项介绍,请参见安装云原生AI套件。
部署完成后,在云原生AI套件页面的组件列表,您可以看到已安装的GPU拓扑感知调度组件ack-ai-installer。
说明如您之前一键部署过云原生AI套件,则可以直接在组件列表,单击调度组件ack-ai-installer右侧操作列的部署,进行该组件的安装。