ACK専用クラスターからACK Proクラスターに移行した後、ACK ProクラスターのcGPUコンポーネントを直接使用することはできません。 GPUのスケジューリングと分離を使用する前に、cGPUコンポーネントを更新する必要があります。 このトピックでは、ACK ProクラスターのcGPUコンポーネントを更新する方法について説明します。
前提条件
アプリケーションは、ACK専用クラスターからACK Proクラスターに移行されます。 cGPUコンポーネントはACK専用クラスターにインストールされています。 詳細については、「Hot migration from ACK dedicated clusters to ACK Pro clusters」をご参照ください。
手順
ノードラベルの変更に使用するジョブYAMLファイルをダウンロードし、cGPUコンポーネントをアンインストールします。 YAMLファイルをダウンロードするには、[gpushare-label-change.yaml] をクリックします。
次のコマンドを実行して、cGPUコンポーネントを実行するジョブをデプロイします。
kubectl apply -f gpushare-label-change.yaml
次のコマンドを実行して、ジョブがデプロイされているかどうかを確認します。
kubectl get po -l app=change-gpushare-labels -n kube-system
期待される出力:
NAME READY STATUS RESTARTS AGE gpushare-label-migration-v**** 0/1 Completed 0 89s
出力は、ジョブが
完了
状態であることを示します。cGPUコンポーネントをインストールします。 詳細については、「cGPUコンポーネントのインストール」をご参照ください。
クラスターにGPUメモリ検査ツールをインストールします。 詳細については、「GPUメモリ検査ツールのインストールと使用」をご参照ください。
次のステップ
GPU共有およびメモリ分離機能を検証する方法の詳細については、「cGPUを使用してGPUを共有する例」をご参照ください。