ACKを使用すると、異種コンピューティングリソースを一元的にスケジュール、管理、および保守できます。 これは、ACKクラスタにおける異種リソースの利用を著しく改善する。 このトピックでは、異種コンピューティングのためにACKクラスター内の異種リソースを管理するためにACKが提供する機能について説明します。
背景情報
5G、AI、ハイパフォーマンスコンピューティング (HPC) 、エッジコンピューティングサービスの出現により、コンピューティングパワーの需要が増加しています。 CPUに基づく汎用コンピューティングは、コンピューティングパワーに対する増大する需要を満たすことができない。 ドメイン固有アーキテクチャ (DSA) に基づく異種コンピューティングは、コンピューティング能力に対する増大する需要を満たすことができる。 GPUおよびフィールドプログラマブルゲートアレイ (FPGA) などの様々な異種コンピューティングリソースが、前述のサービスで広く使用されている。
しかし、企業は、多数の異種リソースを管理することが困難であると感じる。 Alibaba Cloudは、異種リソースを管理するためのオールインワンソリューションを提供します。 このソリューションを使用して、異種リソースを一元的にスケジュールおよび管理できます。
異種コンピューティングのためのACKクラスターの概要
ACKを使用すると、GPU、FPGA、特定用途向け集積回路 (ASIC) 、リモート直接メモリアクセス (RDMA) など、ACKクラスター内の異種リソースを集中的にスケジュール、管理、および維持できます。 これは、異種計算のためのACKクラスタにおけるリソース利用を改善する。 次の表は、異種コンピューティングのためにクラスタ内の異種リソースを管理するためにACKが提供する機能を示しています。
異種リソース | 説明 |
GPU | ACKを使用すると、NVIDIA T4、P100、V100、およびA100 GPUを含むクラスターを作成できます。 詳細については、「GPU高速化ノードを使用したACKクラスターの作成」および「GPU高速化ノードを使用したACK専用クラスターの作成」をご参照ください。 ACKは、個々のGPUに対するリソース要求をサポートする。 ACKは、GPU高速化ノードの自動スケーリングをサポートします。 詳細については、「GPUメトリックに基づく自動スケーリングの有効化」をご参照ください。 ACKは、GPU共有、GPUスケジューリング、およびコンピューティング電力分離をサポートします。 Alibaba Cloudが提供するGPU共有およびスケジューリング機能により、1つのGPUを複数のモデル推論アプリケーションにスケジュールできます。 これにより、コストが大幅に削減されます。 Alibaba Cloudが提供するcGPUソリューションを使用すると、アプリケーション設定を変更することなく、異なるアプリケーションに割り当てられているGPUメモリとコンピューティングパワーを分離できます。 これにより、塗布安定性が向上する。 サポートされているGPU割り当てポリシーを次に示します。 詳細については、「GPU共有の概要」および「共有GPUのスケジューリングによる計算能力の割り当て」をご参照ください。 1ポッド1 GPUベースのGPU共有とメモリ分離: このポリシーは、モデル推論シナリオで一般的に使用されます。 1ポッドマルチGPUベースのGPU共有とメモリ分離: このポリシーは、分散モデルをトレーニングするコードを構築するために一般的に使用されます。 binpackまたはspreadアルゴリズムを使用したGPU割り当て: binpackアルゴリズムを使用すると、システムは1つのGPUを複数のポッドと優先的に共有します。 このアルゴリズムは、高いGPU使用率を保証する必要があるシナリオに適しています。 spreadアルゴリズムを使用すると、システムは各ポッドに1つのGPUを割り当てようとします。 このアルゴリズムは、GPUの高可用性を保証する必要があるシナリオに適しています。
ACKは、トポロジ認識GPUスケジューリングをサポートします。 この機能は、ノードから異種リソースのトポロジを取得し、スケジューラがノードトポロジ情報、NVリンク、周辺コンポーネント相互接続エクスプレス (PCIe) スイッチ、QuickPath interconnect (QPI) 、およびリモートダイレクトメモリアクセス (RDMA) NICに基づいてスケジューリング決定を行うことを可能にします。 これにより、スケジューリングオプションが最適化され、最適なパフォーマンスが実現します。 詳細については、「トポロジ対応GPUスケジューリングの概要」をご参照ください。 ACKはGPUリソースモニタリングをサポートします。 この機能は、ノードとアプリケーションのメトリックを収集し、デバイス (ソフトウェアとハードウェア) の例外を検出してアラートを送信し、専用GPUと共有GPUを監視するために使用できます。 詳細については、「GPUエラーの監視」および「Prometheus Serviceを使用したKubernetesクラスターのGPUリソースの監視」をご参照ください。
|
FPGA | ACKを使用すると、FPGAデバイスを含むクラスターを作成できます。 詳細については、「FPGAアクセラレーションノードを使用したACKクラスターの作成」をご参照ください。 |
ASIC | ACKを使用すると、NETINT ASICデバイスを含み、個々のNETINT ASICカードのリソース要求をサポートするクラスターを作成できます。 詳細については、「ASIC高速化クラスターの作成」をご参照ください。 |
RDMA | ACKを使用すると、RDMAデバイスを含むACKクラスターを作成できます。 詳細については、「eRDMA」をご参照ください。 |