すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:異種コンピューティングのためのACKクラスターの概要

最終更新日:Nov 13, 2024

ACKを使用すると、異種コンピューティングリソースを一元的にスケジュール、管理、および保守できます。 これは、ACKクラスタにおける異種リソースの利用を著しく改善する。 このトピックでは、異種コンピューティングのためにACKクラスター内の異種リソースを管理するためにACKが提供する機能について説明します。

背景情報

5G、AI、ハイパフォーマンスコンピューティング (HPC) 、エッジコンピューティングサービスの出現により、コンピューティングパワーの需要が増加しています。 CPUに基づく汎用コンピューティングは、コンピューティングパワーに対する増大する需要を満たすことができない。 ドメイン固有アーキテクチャ (DSA) に基づく異種コンピューティングは、コンピューティング能力に対する増大する需要を満たすことができる。 GPUおよびフィールドプログラマブルゲートアレイ (FPGA) などの様々な異種コンピューティングリソースが、前述のサービスで広く使用されている。

しかし、企業は、多数の異種リソースを管理することが困難であると感じる。 Alibaba Cloudは、異種リソースを管理するためのオールインワンソリューションを提供します。 このソリューションを使用して、異種リソースを一元的にスケジュールおよび管理できます。

異種コンピューティングのためのACKクラスターの概要

ACKを使用すると、GPU、FPGA、特定用途向け集積回路 (ASIC) 、リモート直接メモリアクセス (RDMA) など、ACKクラスター内の異種リソースを集中的にスケジュール、管理、および維持できます。 これは、異種計算のためのACKクラスタにおけるリソース利用を改善する。 次の表は、異種コンピューティングのためにクラスタ内の異種リソースを管理するためにACKが提供する機能を示しています。

異種リソース

説明

GPU

ACKを使用すると、NVIDIA T4、P100、V100、およびA100 GPUを含むクラスターを作成できます。 詳細については、「GPU高速化ノードを使用したACKクラスターの作成」および「GPU高速化ノードを使用したACK専用クラスターの作成」をご参照ください。

  • ACKは、個々のGPUに対するリソース要求をサポートする。

  • ACKは、GPU高速化ノードの自動スケーリングをサポートします。 詳細については、「GPUメトリックに基づく自動スケーリングの有効化」をご参照ください。

  • ACKは、GPU共有、GPUスケジューリング、およびコンピューティング電力分離をサポートします。 Alibaba Cloudが提供するGPU共有およびスケジューリング機能により、1つのGPUを複数のモデル推論アプリケーションにスケジュールできます。 これにより、コストが大幅に削減されます。 Alibaba Cloudが提供するcGPUソリューションを使用すると、アプリケーション設定を変更することなく、異なるアプリケーションに割り当てられているGPUメモリとコンピューティングパワーを分離できます。 これにより、塗布安定性が向上する。 サポートされているGPU割り当てポリシーを次に示します。 詳細については、「GPU共有の概要」および「共有GPUのスケジューリングによる計算能力の割り当て」をご参照ください。

    • 1ポッド1 GPUベースのGPU共有とメモリ分離: このポリシーは、モデル推論シナリオで一般的に使用されます。

    • 1ポッドマルチGPUベースのGPU共有とメモリ分離: このポリシーは、分散モデルをトレーニングするコードを構築するために一般的に使用されます。

    • binpackまたはspreadアルゴリズムを使用したGPU割り当て: binpackアルゴリズムを使用すると、システムは1つのGPUを複数のポッドと優先的に共有します。 このアルゴリズムは、高いGPU使用率を保証する必要があるシナリオに適しています。 spreadアルゴリズムを使用すると、システムは各ポッドに1つのGPUを割り当てようとします。 このアルゴリズムは、GPUの高可用性を保証する必要があるシナリオに適しています。

  • ACKは、トポロジ認識GPUスケジューリングをサポートします。 この機能は、ノードから異種リソースのトポロジを取得し、スケジューラがノードトポロジ情報、NVリンク、周辺コンポーネント相互接続エクスプレス (PCIe) スイッチ、QuickPath interconnect (QPI) 、およびリモートダイレクトメモリアクセス (RDMA) NICに基づいてスケジューリング決定を行うことを可能にします。 これにより、スケジューリングオプションが最適化され、最適なパフォーマンスが実現します。 詳細については、「トポロジ対応GPUスケジューリングの概要」をご参照ください。

  • ACKはGPUリソースモニタリングをサポートします。 この機能は、ノードとアプリケーションのメトリックを収集し、デバイス (ソフトウェアとハードウェア) の例外を検出してアラートを送信し、専用GPUと共有GPUを監視するために使用できます。 詳細については、「GPUエラーの監視」および「Prometheus Serviceを使用したKubernetesクラスターのGPUリソースの監視」をご参照ください。

FPGA

ACKを使用すると、FPGAデバイスを含むクラスターを作成できます。 詳細については、「FPGAアクセラレーションノードを使用したACKクラスターの作成」をご参照ください。

ASIC

ACKを使用すると、NETINT ASICデバイスを含み、個々のNETINT ASICカードのリソース要求をサポートするクラスターを作成できます。 詳細については、「ASIC高速化クラスターの作成」をご参照ください。

RDMA

ACKを使用すると、RDMAデバイスを含むACKクラスターを作成できます。 詳細については、「eRDMA」をご参照ください。

  • Arenaを使用して、分散ディープラーニングジョブをRDMAデバイスに送信できます。

  • 分散深層学習ジョブなど、高帯域幅を必要とするトレーニングジョブを作成できます。