激活GPU拓扑资源调度前,您需要安装并配置相关组件。本文介绍如何安装GPU拓扑感知调度相关组件以及在集群中开启GPU拓扑感知调度能力。
前提条件
创建ACK托管集群,集群的实例规格类型选择为GPU云服务器。
系统组件版本满足以下要求。
组件
版本要求
组件
版本要求
Kubernetes
1.18.8及以上版本
Nvidia
418.87.01及以上版本
训练框架NCCL版本
2.7+
操作系统
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
显卡
V100