すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:AIワークロードのスケジューリング

最終更新日:Nov 14, 2024

このトピックでは、エラスティックリソース、AIタスク、異種リソース、およびタスクキューのスケジューリングについて説明します。 これらの機能は、リソース利用率を最大化し、ジョブの効率を向上させるのに役立ちます。

異種リソースのスケジューリング

Container Service for Kubernetes (ACK) は、cGPU、トポロジ対応CPUスケジューリング、およびトポロジ対応GPUスケジューリング機能を提供し、異種リソースをスケジュールできるようにします。 ACKがGPUのスケジュールに使用するノードラベルの詳細については、「GPUスケジューリングポリシーを有効にするためのラベル」をご参照ください。

機能説明関連ドキュメント
cGPUcGPUはGPU共有を提供し、GPUリソースを必要とするワークロードの安定性を確保しながら、GPUリソースのコストを削減します。
ACK Proクラスターは、次のGPUポリシーをサポートしています。
  • 1ポッド-1 GPUベースでのGPU共有とメモリ分離。 このポリシーは、モデル推論シナリオで一般的に使用されます。
  • 1ポッド /マルチGPUベースでのGPU共有とメモリ分離。 このポリシーは、分散モデルをトレーニングするコードを構築するために一般的に使用されます。
  • binpackまたはspreadアルゴリズムに基づくGPU割り当て。 このポリシーは、GPUの使用率を改善し、GPUの高可用性を確保するために一般的に使用されます。
GPU共有
トポロジ対応CPUスケジューリングとトポロジ対応GPUスケジューリングワークロードの高いパフォーマンスを確保するために、スケジューラは、ノードの異種リソースに関するトポロジ情報に基づいて最適なスケジューリングソリューションを選択します。 情報には、NVLinkとPCIeスイッチを使用してGPUが相互に通信する方法、およびCPUの非均一メモリアクセス (NUMA) トポロジが含まれます。
FPGA (Field Programmable Gate Array) スケジューリングこの機能により、クラスターのFPGAリソースを一元的に管理できます。 この機能を使用して、FPGA高速化ノードへのFPGAリソースを必要とするワークロードをスケジュールできます。 FPGA高速化ノードへのワークロードのスケジュール

タスクキューのスケジューリング

ACKを使用すると、AIワークロード、機械学習ワークロード、およびバッチジョブのタスクキュースケジューリングをカスタマイズできます。

PH