異種コンピューティングのためのACKクラスターの概要

ACKを使用すると、異種コンピューティングリソースを一元的にスケジュール、管理、および保守できます。これは、ACKクラスタにおける異種リソースの利用を著しく改善する。このトピックでは、異種コンピューティングのためにACKクラスター内の異種リソースを管理するためにACKが提供する機能について説明します。

背景情報

5G、AI、ハイパフォーマンスコンピューティング (HPC) 、エッジコンピューティングサービスの出現により、コンピューティングパワーの需要が増加しています。 CPUに基づく汎用コンピューティングは、コンピューティングパワーに対する増大する需要を満たすことができない。ドメイン固有アーキテクチャ (DSA) に基づく異種コンピューティングは、コンピューティング能力に対する増大する需要を満たすことができる。 GPUおよびフィールドプログラマブルゲートアレイ (FPGA) などの様々な異種コンピューティングリソースが、前述のサービスで広く使用されている。

しかし、企業は、多数の異種リソースを管理することが困難であると感じる。 Alibaba Cloudは、異種リソースを管理するためのオールインワンソリューションを提供します。このソリューションを使用して、異種リソースを一元的にスケジュールおよび管理できます。

ACKを使用すると、GPU、FPGA、特定用途向け集積回路 (ASIC) 、リモート直接メモリアクセス (RDMA) など、ACKクラスター内の異種リソースを集中的にスケジュール、管理、および維持できます。これは、異種計算のためのACKクラスタにおけるリソース利用を改善する。次の表は、異種コンピューティングのためにクラスタ内の異種リソースを管理するためにACKが提供する機能を示しています。

異種リソース	説明
GPU	ACKを使用すると、NVIDIA T4、P100、V100、およびA100 GPUを含むクラスターを作成できます。詳細については、「GPU高速化ノードを使用したACKクラスターの作成」および「GPU高速化ノードを使用したACK専用クラスターの作成」をご参照ください。 ACKは、個々のGPUに対するリソース要求をサポートする。 ACKは、GPU高速化ノードの自動スケーリングをサポートします。詳細については、「GPUメトリックに基づく自動スケーリングの有効化」をご参照ください。 ACKは、GPU共有、GPUスケジューリング、およびコンピューティング電力分離をサポートします。 Alibaba Cloudが提供するGPU共有およびスケジューリング機能により、1つのGPUを複数のモデル推論アプリケーションにスケジュールできます。これにより、コストが大幅に削減されます。 Alibaba Cloudが提供するcGPUソリューションを使用すると、アプリケーション設定を変更することなく、異なるアプリケーションに割り当てられているGPUメモリとコンピューティングパワーを分離できます。これにより、塗布安定性が向上する。サポートされているGPU割り当てポリシーを次に示します。詳細については、「GPU共有の概要」および「共有GPUのスケジューリングによる計算能力の割り当て」をご参照ください。 1ポッド1 GPUベースのGPU共有とメモリ分離: このポリシーは、モデル推論シナリオで一般的に使用されます。 1ポッドマルチGPUベースのGPU共有とメモリ分離: このポリシーは、分散モデルをトレーニングするコードを構築するために一般的に使用されます。 binpackまたはspreadアルゴリズムを使用したGPU割り当て: binpackアルゴリズムを使用すると、システムは1つのGPUを複数のポッドと優先的に共有します。このアルゴリズムは、高いGPU使用率を保証する必要があるシナリオに適しています。 spreadアルゴリズムを使用すると、システムは各ポッドに1つのGPUを割り当てようとします。このアルゴリズムは、GPUの高可用性を保証する必要があるシナリオに適しています。 ACKは、トポロジ認識GPUスケジューリングをサポートします。この機能は、ノードから異種リソースのトポロジを取得し、スケジューラがノードトポロジ情報、NVリンク、周辺コンポーネント相互接続エクスプレス (PCIe) スイッチ、QuickPath interconnect (QPI) 、およびリモートダイレクトメモリアクセス (RDMA) NICに基づいてスケジューリング決定を行うことを可能にします。これにより、スケジューリングオプションが最適化され、最適なパフォーマンスが実現します。詳細については、「トポロジ対応GPUスケジューリングの概要」をご参照ください。 ACKはGPUリソースモニタリングをサポートします。この機能は、ノードとアプリケーションのメトリックを収集し、デバイス (ソフトウェアとハードウェア) の例外を検出してアラートを送信し、専用GPUと共有GPUを監視するために使用できます。詳細については、「GPUエラーの監視」および「Prometheus Serviceを使用したKubernetesクラスターのGPUリソースの監視」をご参照ください。
FPGA	ACKを使用すると、FPGAデバイスを含むクラスターを作成できます。詳細については、「FPGAアクセラレーションノードを使用したACKクラスターの作成」をご参照ください。 ACKは、個々のFPGAに対するリソース要求をサポートする。 ACKを使用すると、ラベルに基づいてポッドをFPGA高速化ノードにスケジュールできます。詳細については、「FPGA高速化ノードへのワークロードのスケジュール」をご参照ください。
ASIC	ACKを使用すると、NETINT ASICデバイスを含み、個々のNETINT ASICカードのリソース要求をサポートするクラスターを作成できます。詳細については、「ASIC高速化クラスターの作成」をご参照ください。
RDMA	ACKを使用すると、RDMAデバイスを含むACKクラスターを作成できます。詳細については、「eRDMA」をご参照ください。 Arenaを使用して、分散ディープラーニングジョブをRDMAデバイスに送信できます。分散深層学習ジョブなど、高帯域幅を必要とするトレーニングジョブを作成できます。