トポロジ対応のGPUスケジューリングを有効にする前に、トポロジ対応のGPUスケジューリングコンポーネントをインストールして設定する必要があります。このトピックでは、トポロジ対応のGPUスケジューリングコンポーネントをインストールし、クラスターのトポロジ対応のGPUスケジューリングを有効にする方法について説明します。
前提条件
Container Service for Kubernetes (ACK) Proクラスターが作成され、クラスターのインスタンスタイプがElastic GPU Serviceに設定されます。 詳細については、「マネージド Kubernetes クラスターの作成」をご参照ください。
システムコンポーネントのバージョンは、次の要件を満たしています。
コンポーネント
バージョン
Kubernetes
1.18.8以降
Nvidia
418.87.01以降
NVIDIA Collective Communications Library (NCCL)
2.7 +
オペレーティングシステム
CentOS 7.6
CentOS 7.7
Ubuntu 16.04
Ubuntu 18.04
Alibaba Cloud Linux 2
Alibaba Cloud Linux 3
GPU
V100
手順
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のウィンドウで、 を選択します。
On theクラウドネイティブAIスイートページをクリックします。デプロイ.
表示されるページの [スケジューリング] セクションで、[スケジューリングコンポーネント (バッチタスクスケジューリング、GPU共有、トポロジ対応GPUスケジューリング、およびNPUスケジューリング)] を選択し、下部の [クラウドネイティブAIスイートのデプロイ] をクリックします。 パラメーターの詳細については、「クラウドネイティブAIスイートのインストール」をご参照ください。
クラウドネイティブAIスイートがインストールされた後、[クラウドネイティブaiスイート] ページの [コンポーネント] リストで、ack-AI-installerという名前のトポロジ対応GPUスケジューリングコンポーネントを見つけることができます。
説明クラウドネイティブAIスイートのコンポーネントをインストールしている場合は、コンポーネントリストでack-ai-installerを見つけ、[操作] 列の [デプロイ] をクリックしてコンポーネントをインストールします。