GPU共有コンポーネントをクラスターにインストールしましたが、ノードで使用されるGPUのドライバーバージョンがクラスター内のcGPUのドライバーバージョンと互換性がない、またはノードが実行するオペレーティングシステムのバージョンがクラスター内のcGPUで使用されるオペレーティングシステムのバージョンと互換性がない場合。
手順1: GPU共有コンポーネントを更新する方法を選択する
ack-ai-installerのインストール方法に基づいて、ack-ai-installerコンポーネントを更新する方法を選択する必要があります。 ack-ai-installerコンポーネントは、次のいずれかの方法でインストールできます。
クラウドネイティブAIスイートを使用する: クラウドネイティブAIスイートページで、ack-ai-installerコンポーネントをインストールします。 この方法を使用することを推奨します。 詳細については、「GPU共有コンポーネントの設定」トピックの手順1: GPU共有コンポーネントのインストールをご参照ください。
アプリケーションカタログを使用する: Container Service for Kubernetes (ack) コンソールのMarketplaceページの [アプリカタログ] タブにACK-ai-installerコンポーネントをインストールします。 このインストール方法は使用できません。 ただし、以前にこの方法でインストールした既存のack-ai-installerコンポーネントを更新できます。
重要この方法を使用してインストールされたack-ai-installerコンポーネントをクラスターからアンインストールした場合、クラウドネイティブAIスイートを使用してコンポーネントを再インストールする必要があります。
ステップ2: GPU共有コンポーネントの更新
クラウドネイティブAIスイートの使用
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のウィンドウで、 を選択します。
[コンポーネント] セクションで [ack-ai-installer] コンポーネントを見つけ、[操作] 列の [アップグレード] をクリックします。
アプリケーションカタログを使用した
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、 を選択します。
クラスターのHelmページで、ack-ai-installerコンポーネントを見つけ、[操作] 列の [更新] をクリックします。 [リリースの更新] パネルで、最新のチャートバージョンを選択し、[OK] をクリックします。
重要グラフの設定を変更する場合は、設定を変更した後にコンポーネントを更新します。
コンポーネントが更新されたら、Helmページでack-ai-installerコンポーネントのチャートバージョンを確認します。
ステップ3: 既存のノードを更新する
ack-ai-installer
コンポーネントが更新された後、既存のノードのcGPUバージョンは自動的に更新されません。
ack.node.gpu.schedule=cgpu
またはack.node.gpu.schedule=core_mem
というラベルがノードに存在する場合、クラスターにはGPUメモリの分離にcGPUを使用するノードが含まれます。 既存のノードのcGPUバージョンを更新する必要があります。 詳細については、「ノードのcGPUバージョンの更新」をご参照ください。クラスターにそのようなノードが含まれていない場合は、この手順をスキップできます。
既存のノードでcGPUバージョンを更新すると、ノード上のすべてのポッドが停止します。 そのため、ピーク時間外に操作を実行することを推奨します。