すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:AIワークロードのスケジューリング

最終更新日:Mar 07, 2025

このトピックでは、エラスティックリソース、AIタスク、異種リソース、およびタスクキューのスケジューリングについて説明します。 これらの機能は、リソース利用率を最大化し、ジョブの効率を向上させるのに役立ちます。

異種リソースのスケジューリング

Container Service for Kubernetes (ACK) は、cGPU、トポロジ対応CPUスケジューリング、およびトポロジ対応GPUスケジューリング機能を提供し、異種リソースをスケジュールできるようにします。 ACKがGPUのスケジュールに使用するノードラベルの詳細については、「GPUスケジューリングポリシーを有効にするためのラベル」をご参照ください。

機能

説明

関連ドキュメント

cGPU

cGPUはGPU共有を提供し、GPUリソースを必要とするワークロードの安定性を確保しながら、GPUリソースのコストを削減します。

ACK Proクラスターは、次のGPUポリシーをサポートしています。

  • 1ポッド-1 GPUベースでのGPU共有とメモリ分離。 このポリシーは、モデル推論シナリオで一般的に使用されます。

  • 1ポッド /マルチGPUベースでのGPU共有とメモリ分離。 このポリシーは、分散モデルをトレーニングするコードを構築するために一般的に使用されます。

  • binpackまたはspreadアルゴリズムに基づくGPU割り当て。 このポリシーは、GPUの使用率を改善し、GPUの高可用性を確保するために一般的に使用されます。

GPU共有

トポロジ対応CPUスケジューリングとトポロジ対応GPUスケジューリング

ワークロードの高いパフォーマンスを確保するために、スケジューラは、ノードの異種リソースに関するトポロジ情報に基づいて最適なスケジューリングソリューションを選択します。 情報には、NVLinkとPCIeスイッチを使用してGPUが相互に通信する方法、およびCPUの非均一メモリアクセス (NUMA) トポロジが含まれます。

FPGA (Field Programmable Gate Array) スケジューリング

この機能により、クラスターのFPGAリソースを一元的に管理できます。 この機能を使用して、FPGA高速化ノードへのFPGAリソースを必要とするワークロードをスケジュールできます。

FPGA高速化ノードへのワークロードのスケジュール

タスクキューのスケジューリング

ACKを使用すると、AIワークロード、機械学習ワークロード、およびバッチジョブのタスクキュースケジューリングをカスタマイズできます。

PH