すべてのプロダクト
Search
ドキュメントセンター

:ACK専用クラスターからACK Proクラスターに移行した後、cGPUコンポーネントを更新する

最終更新日:Oct 30, 2024

ACK専用クラスターからACK Proクラスターに移行した後、ACK ProクラスターのcGPUコンポーネントを直接使用することはできません。 GPUのスケジューリングと分離を使用する前に、cGPUコンポーネントを更新する必要があります。 このトピックでは、ACK ProクラスターのcGPUコンポーネントを更新する方法について説明します。

前提条件

アプリケーションは、ACK専用クラスターからACK Proクラスターに移行されます。 cGPUコンポーネントはACK専用クラスターにインストールされています。 詳細については、「Hot migration from ACK dedicated clusters to ACK Pro clusters」をご参照ください。

手順

  1. クラスターのkubeconfigファイルを取得し、kubectlクライアントをクラスターに接続します

  2. ノードラベルの変更に使用するジョブYAMLファイルをダウンロードし、cGPUコンポーネントをアンインストールします。 YAMLファイルをダウンロードするには、[gpushare-label-change.yaml] をクリックします。

  3. 次のコマンドを実行して、cGPUコンポーネントを実行するジョブをデプロイします。

    kubectl apply -f gpushare-label-change.yaml
  4. 次のコマンドを実行して、ジョブがデプロイされているかどうかを確認します。

    kubectl get po -l app=change-gpushare-labels -n kube-system

    期待される出力:

    NAME                             READY   STATUS      RESTARTS   AGE
    gpushare-label-migration-v****   0/1     Completed   0          89s

    出力は、ジョブが完了状態であることを示します。

  5. cGPUコンポーネントをインストールします。 詳細については、「cGPUコンポーネントのインストール」をご参照ください。

  6. クラスターにGPUメモリ検査ツールをインストールします。 詳細については、「GPUメモリ検査ツールのインストールと使用」をご参照ください。

次のステップ

GPU共有およびメモリ分離機能を検証する方法の詳細については、「cGPUを使用してGPUを共有する例」をご参照ください。