すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:GPU高速化ノードの追加

最終更新日:Nov 19, 2024

Container Service for Kubernetes (ACK) Edgeクラスターは、エッジノードプール内のオンプレミスGPUリソースの管理を容易にします。 このトピックでは、GPU高速化ノードをACK edgeクラスターのエッジノードプールに追加する方法について説明します。

前提条件

制限事項

  • クラスターに十分なノードクォータがあることを確認します。 ノードを追加するには、Quota Centerコンソールでアプリケーションを送信します。 ACK Edgeクラスターのクォータ制限の詳細については、「クォータと制限」をご参照ください。

  • GPU高速化ノードを追加する場合、一部のエンドポイントへのアクセスが必要です。 制限を解除してこのアクセスを許可するには、ノード側でセキュリティグループを設定する必要があります。 詳細については、「エッジノードのエンドポイントとIPルーティングの設定」をご参照ください。

  • GPU高速化ノードを追加するときは、次の表からサポートされているGPUモデルを選択します。 GPUアクセラレーションノードを追加する方法の詳細については、「手順」をご参照ください。 GPUモデルがリストされていない場合は、

    サポートのためにチケットを起票してください。

    システムアーキテクチャ

    GPUモデル

    Edge Kubernetesクラスターバージョン

    AMD64/x86_64

    Nvidia_Tesla_T4

    ≥ 1.16.9-aliyunedge.1

    AMD64/x86_64

    Nvidia_Tesla_P4

    ≥ 1.16.9-aliyunedge.1

    AMD64/x86_64

    Nvidia_Tesla_P100

    ≥ 1.16.9-aliyunedge.1

    AMD64/x86_64

    Nvidia_Tesla_V100

    ≥ 1.18.8-aliyunedge.1

    AMD64/x86_64

    Nvidia_Tesla_A10

    ≥ 1.20.11-aliyunedge.1

    AMD64/x86_64

    Nvidia_L40

    ≥ 1.26.3-aliyun.1

手順

  1. ACKコンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターの名前をクリックします。 左側のナビゲーションウィンドウで、[ノード] > [ノードプール] を選択します。

  3. ノードプールページで、管理するノードプールを見つけて選択します。もっと > 既存のノードを追加で、アクション列を作成します。

  4. 既存のECSインスタンスの選択ウィザードページ、マニュアル既存のインスタンスを選択します。

  5. [次のステップ] をクリックして、[インスタンス情報の指定] ウィザードページに移動します。 ノードの追加に使用するパラメーターを設定できます。 パラメーターの詳細については、「パラメーター」をご参照ください。

    image

    説明
    • ノードをクラウドに接続するには、スクリプトでgpuVersionパラメーターを設定する必要があります。 サポートされているGPUモデルの詳細については、「制限」をご参照ください。

    • パラメーターを設定すると、接続ツールは自動的にnvidia-containerd-runtimeをインストールします。 詳細については、「nvidia-containerd-runtime」をご参照ください。

  6. パラメーターを設定したら、[次へ] [ステップ] をクリックします。 [完了] ウィザードページで、[コピー] をクリックして、追加するエッジノードにスクリプトをコピーします。 次に、ノードでスクリプトを実行します。

    次の結果が返されると、ノードがクラスターに追加されます。

    接入成功

関連ドキュメント

  • エッジノードの追加時に問題が発生した場合は、「エッジノードの問題の診断」をご参照ください。

  • エッジノードを削除する方法の詳細については、「エッジノードの削除」をご参照ください。

  • ACK Edgeクラスターは、エッジノードの自律性をサポートします。 エッジノードの自律性により、エッジノードがクラウドから切断されても、エッジノード上のアプリケーションを期待どおりに実行できます。 詳細については、「エッジノードの自律性の設定」をご参照ください。