GPU拓撲感知調度概述 - Container Service for Kubernetes

本文簡要描述了GPU拓撲分布情況，以及GPU拓撲感知調度的優勢。

GPU拓撲分布

下圖為NVLink串連8個Tesla V100的混合立體網路拓撲。每塊V100 GPU有6個NVLink通道，8塊GPU間無法做到全串連，2塊GPU間最多隻能有2條NVLink串連。其中GPU0和GPU3，GPU0和GPU4之間有2條NVLink串連，GPU0和GPU1之間有一條NVLink串連，GPU0和6之間沒有NVLink串連，故GPU0與GPU6之間仍然需要通過PCIe進行通訊。

GPU拓撲感知調度優勢

NVLink串連的單向通訊頻寬為25 GB/s，雙向通訊頻寬為50 GB/s，PCIe串連的通訊頻寬為16 GB/s。在訓練過程中，選擇不同的GPU組合，會得到不同的訓練速度，因此在GPU的調度過程中，選擇最優的GPU組合可以得到最優的訓練速度。

Kubernetes對節點的GPU拓撲資訊不感知，調度過程中對GPU的選擇比較隨機，選擇不同的GPU組合訓練速度會存在較大的差異。基於以上問題，ACK基於Scheduling Framework機制，實現GPU拓撲感知調度，在節點的GPU組合中選擇具有最優訓練速度的組合。