すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ヘテロジニアスコンピューティングクラスターの概要

最終更新日:Nov 27, 2025

Alibaba Cloud Container Service for Kubernetes は、さまざまなヘテロジニアスコンピューティングリソースの統一されたスケジューリングと運用管理をサポートし、ヘテロジニアスコンピューティングクラスターのリソース使用率を向上させます。このトピックでは、ACK がサポートするヘテロジニアスコンピューティング向けの Kubernetes クラスターについて説明します。

ヘテロジニアスコンピューティング向け Kubernetes クラスターの概要

ACK は、GPU、特定用途向け集積回路 (ASIC)、elastic Remote Direct Memory Access (eRDMA) などのヘテロジニアスリソースの統一されたスケジューリングと運用管理をサポートし、クラスターのリソース使用率を向上させます。次の表では、ACK がヘテロジニアスコンピューティング向けにサポートする Kubernetes クラスターと機能について説明します。

異種混在リソース

説明

GPU

ACK では、T4、P100、V100 などの主要な GPU カードを含むクラスターを作成できます。

  • 個別の GPU のリソースリクエストをサポートします。

  • GPU メトリックに基づくオートスケーリングをサポートします。

  • GPU 共有計算能力の隔離をサポートします。Alibaba Cloud が開発した GPU 共有技術により、複数のモデル推論アプリケーションを同じ GPU 上で同時に実行できます。これにより、コストが大幅に削減されます。Alibaba Cloud が提供する cGPU ソリューションを使用すると、アプリケーションコンテナを変更することなく、GPU メモリと計算能力の隔離が実現されます。これにより、アプリケーションの安定性が向上します。以下の GPU デバイス割り当てポリシーがサポートされています:

    • 単一 Pod-単一 GPU 共有:このポリシーは、モデル推論シナリオで一般的に使用されます。

    • 単一 Pod-複数 GPU 共有:このポリシーは、分散トレーニング開発で一般的に使用されます。

    • Binpack 割り当てポリシー:複数の Pod が優先的に同じ GPU カードにスケジュールされます。このポリシーは、GPU 使用率を向上させる必要があるシナリオに適しています。

    • Spread 割り当てポリシー:複数の Pod が可能な限り異なる GPU カードにスケジュールされます。このポリシーは、高可用性 (HA) シナリオに適しています。

  • トポロジーを意識した GPU スケジューリング機能をサポートします。この機能は、ノードからヘテロジニアスコンピューティングリソースのトポロジーを取得します。スケジューラは、ノードのトポロジー情報に基づいてスケジューリングの決定を行います。これにより、NVLINK、PCIe Switch、QPI、RDMA NIC に最適なスケジューリングオプションが提供され、最高のパフォーマンスが実現されます。

  • GPU リソースモニタリングをサポートします。この機能は、ノードとアプリケーションの観点からモニタリングメトリックを提供し、デバイス (ソフトウェアとハードウェア) の例外を自動的に検出してアラートを作成し、専用 GPU と共有 GPU の両方のシナリオをサポートします。

ASIC

ACK では、NETINT ASIC デバイスを含むクラスターを作成でき、個別の NETINT ASIC カードのリソースリクエストをサポートします。

eRDMA

ACK では、eRDMA デバイスを含むクラスターを作成できます。

  • Arena を通じて eRDMA デバイスを使用する分散ディープラーニングトレーニングジョブを送信します。

  • 分散ディープラーニングトレーニングジョブなど、ネットワーク帯域幅に対する要件が高いジョブをサポートします。

ACK でサポートされている GPU インスタンス タイプ

ACK は、複数の GPU コンピューティング最適化インスタンスファミリーをサポートしています。ACK クラスターに GPU ノードを追加するには、以下にリストされている ECS インスタンスファミリーからインスタンスタイプを選択できます。

機密コンピューティングインスタンスはサポートされていません。これらのインスタンスタイプには、-tee フィールドが含まれています (例:ecs.gn8v-tee.4xlarge)。
説明

ACK コンソールでは、GPU 仮想化インスタンスをクラスターノードとして選択することはできません。詳細については、「Container Service for Kubernetes は GPU 仮想化インスタンスをサポートしていますか?」をご参照ください。

ACK でサポートされている ASIC インスタンス タイプ

ACK クラスターに ASIC ノードを追加するには、インスタンスタイプ ecs.video-trans.26xhevc を選択できます。

ACK でサポートされている eRDMA インスタンス タイプ

ACK は、複数の eRDMA 対応インスタンスファミリーをサポートしています。以下にリストされている ECS インスタンスファミリーから選択できます。詳細については、「エンタープライズレベルのインスタンスで eRDMA を有効にする」および「GPU インスタンスで eRDMA を有効にする」をご参照ください。