Container Service for Kubernetesは、複数の予測モデルが1つのGPUを共有できるGPU共有機能を提供し、NVIDIAカーネルモードドライバーに基づくGPUメモリの分離をサポートします。 このトピックでは、ack-cgpuコンポーネントをインストールする方法について説明します。このコンポーネントを使用して、GPUの共有、GPUメモリの分離、およびGPU割り当て情報のクエリを行います。
前提条件
GPU高速化ノードを含むACK専用クラスターが作成されます。 詳細については、「GPUアクセラレーションノードでのACKクラスターの作成」をご参照ください。
kubectlクライアントがクラスターに接続されています。 詳細については、「クラスターのkubeconfigファイルを取得し、kubectlを使用してクラスターに接続する」をご参照ください。
制限事項
GPU共有を有効にするノードのCPUポリシーを静的
に設定しないでください。
下表に詳細を示します。
項目 | 要件 |
Kubernetes | Kubernetes 1.12.6以降 |
オペレーティングシステム | Windowsを除くオペレーティングシステムサポートACK |
GPUモデル | ACKでサポートされているGPUモデルの詳細については、「ACKでサポートされているGPU高速化ECSインスタンスタイプ」をご参照ください。 |
ステップ1: GPU高速化ノードにラベルを追加する
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、 を選択します。
右上隅のノードページでラベルとテントの管理をクリックします。
ラベルとテントの管理ページで、管理するノードを選択し、ラベルを追加をクリックします。
追加ダイアログボックスで、名前と値をクリックし、OKをクリックします。
cGPUを有効にするには、Nameパラメーターをcgpuに、Valueパラメーターをtrueに設定する必要があります。
cGPUを無効にするには、Nameパラメーターをcgpuに設定し、Valueパラメーターをfalseに設定します。 cGPUラベルを削除してcgpuを無効にすることはできません。
ステップ2: ラベル付きノードにack-cgpuコンポーネントをインストールする
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、 を選択します。
Helmページの左上隅で、[デプロイ] をクリックします。 [配置] パネルで、[グラフ] パラメーターに [ack-cgpu] を選択し、画面上の指示に基づいて他のパラメーターを設定してack-cgpuコンポーネントをインストールします。
Helmページで、ack-cgpuのステータスがDeployedに変わると、ack-cgpuがデプロイされます。