Container Service for Kubernetes (ACK) Edgeクラスターは、エッジノードプール内のオンプレミスGPUリソースの管理を容易にします。 このトピックでは、GPU高速化ノードをACK edgeクラスターのエッジノードプールに追加する方法について説明します。
前提条件
ACK Edgeクラスターが作成されました。 詳細については、「コンソールでのACK Edgeクラスターの作成」をご参照ください。
ノードが追加される前に、GPUドライバーがクラスターにインストールされます。 ドライバーのバージョンの詳細については、「ACKでサポートされているNVIDIAドライバーのバージョン」をご参照ください。
制限事項
クラスターに十分なノードクォータがあることを確認します。 ノードを追加するには、Quota Centerコンソールでアプリケーションを送信します。 ACK Edgeクラスターのクォータ制限の詳細については、「クォータと制限」をご参照ください。
GPU高速化ノードを追加する場合、一部のエンドポイントへのアクセスが必要です。 制限を解除してこのアクセスを許可するには、ノード側でセキュリティグループを設定する必要があります。 詳細については、「エッジノードのエンドポイントとIPルーティングの設定」をご参照ください。
GPU高速化ノードを追加するときは、次の表からサポートされているGPUモデルを選択します。 GPUアクセラレーションノードを追加する方法の詳細については、「手順」をご参照ください。 GPUモデルがリストされていない場合は、
サポートのためにチケットを起票してください。
システムアーキテクチャ
GPUモデル
Edge Kubernetesクラスターバージョン
AMD64/x86_64
Nvidia_Tesla_T4
≥ 1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_P4
≥ 1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_P100
≥ 1.16.9-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_V100
≥ 1.18.8-aliyunedge.1
AMD64/x86_64
Nvidia_Tesla_A10
≥ 1.20.11-aliyunedge.1
AMD64/x86_64
Nvidia_L40
≥ 1.26.3-aliyun.1
手順
ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、 を選択します。
ノードプールページで、管理するノードプールを見つけて選択します。 で、アクション列を作成します。
既存のECSインスタンスの選択ウィザードページ、マニュアル既存のインスタンスを選択します。
[次のステップ] をクリックして、[インスタンス情報の指定] ウィザードページに移動します。 ノードの追加に使用するパラメーターを設定できます。 パラメーターの詳細については、「パラメーター」をご参照ください。
説明ノードをクラウドに接続するには、スクリプトで
gpuVersion
パラメーターを設定する必要があります。 サポートされているGPUモデルの詳細については、「制限」をご参照ください。パラメーターを設定すると、接続ツールは自動的にnvidia-containerd-runtimeをインストールします。 詳細については、「nvidia-containerd-runtime」をご参照ください。
パラメーターを設定したら、[次へ] [ステップ] をクリックします。 [完了] ウィザードページで、[コピー] をクリックして、追加するエッジノードにスクリプトをコピーします。 次に、ノードでスクリプトを実行します。
次の結果が返されると、ノードがクラスターに追加されます。
関連ドキュメント
エッジノードの追加時に問題が発生した場合は、「エッジノードの問題の診断」をご参照ください。
エッジノードを削除する方法の詳細については、「エッジノードの削除」をご参照ください。
ACK Edgeクラスターは、エッジノードの自律性をサポートします。 エッジノードの自律性により、エッジノードがクラウドから切断されても、エッジノード上のアプリケーションを期待どおりに実行できます。 詳細については、「エッジノードの自律性の設定」をご参照ください。