このトピックでは、エラスティックリソース、AIタスク、異種リソース、およびタスクキューのスケジューリングについて説明します。 これらの機能は、リソース利用率を最大化し、ジョブの効率を向上させるのに役立ちます。
異種リソースのスケジューリング
Container Service for Kubernetes (ACK) は、cGPU、トポロジ対応CPUスケジューリング、およびトポロジ対応GPUスケジューリング機能を提供し、異種リソースをスケジュールできるようにします。 ACKがGPUのスケジュールに使用するノードラベルの詳細については、「GPUスケジューリングポリシーを有効にするためのラベル」をご参照ください。
機能 | 説明 | 関連ドキュメント |
cGPU | cGPUはGPU共有を提供し、GPUリソースを必要とするワークロードの安定性を確保しながら、GPUリソースのコストを削減します。 ACK Proクラスターは、次のGPUポリシーをサポートしています。
| GPU共有 |
トポロジ対応CPUスケジューリングとトポロジ対応GPUスケジューリング | ワークロードの高いパフォーマンスを確保するために、スケジューラは、ノードの異種リソースに関するトポロジ情報に基づいて最適なスケジューリングソリューションを選択します。 情報には、NVLinkとPCIeスイッチを使用してGPUが相互に通信する方法、およびCPUの非均一メモリアクセス (NUMA) トポロジが含まれます。 | |
FPGA (Field Programmable Gate Array) スケジューリング | この機能により、クラスターのFPGAリソースを一元的に管理できます。 この機能を使用して、FPGA高速化ノードへのFPGAリソースを必要とするワークロードをスケジュールできます。 | FPGA高速化ノードへのワークロードのスケジュール |
タスクキューのスケジューリング
ACKを使用すると、AIワークロード、機械学習ワークロード、およびバッチジョブのタスクキュースケジューリングをカスタマイズできます。
PH