全部產品
Search
文件中心

Container Service for Kubernetes:GPU拓撲感知調度概述

更新時間:Jun 19, 2024

本文簡要描述了GPU拓撲分布情況,以及GPU拓撲感知調度的優勢。

GPU拓撲分布

下圖為NVLink串連8個Tesla V100的混合立體網路拓撲。每塊V100 GPU有6個NVLink通道,8塊GPU間無法做到全串連,2塊GPU間最多隻能有2條NVLink串連。其中GPU0和GPU3,GPU0和GPU4之間有2條NVLink串連,GPU0和GPU1之間有一條NVLink串連,GPU0和6之間沒有NVLink串連,故GPU0與GPU6之間仍然需要通過PCIe進行通訊。

GPU拓撲感知調度優勢

NVLink串連的單向通訊頻寬為25 GB/s,雙向通訊頻寬為50 GB/s,PCIe串連的通訊頻寬為16 GB/s。在訓練過程中,選擇不同的GPU組合,會得到不同的訓練速度,因此在GPU的調度過程中,選擇最優的GPU組合可以得到最優的訓練速度。

Kubernetes對節點的GPU拓撲資訊不感知,調度過程中對GPU的選擇比較隨機,選擇不同的GPU組合訓練速度會存在較大的差異。基於以上問題,ACK基於Scheduling Framework機制,實現GPU拓撲感知調度,在節點的GPU組合中選擇具有最優訓練速度的組合。