GPU容器共用技術cGPU是阿里雲基於核心虛擬GPU隔離的容器共用技術。即多個容器共用一張GPU卡,從而實現業務的安全隔離,提高GPU硬體資源的利用率並降低使用成本。
為什麼選擇cGPU
相容性好
不僅適配標準的Docker和Containerd工作方式,而且還無縫相容Kubernetes工作方式。
操作簡單
無需重編譯AI應用,運行時無需替換CUDA庫。
資源靈活劃分
物理GPU的資源可以進行任意劃分。例如,GPU顯存動態劃分,支援M級劃分、GPU利用率動態劃分,算力支援最小2%粒度的劃分。
GPU執行個體規格無限制
適用於GPU裸金屬執行個體,虛擬化執行個體,vGPU執行個體等各種GPU執行個體。
應用情境豐富
支援在離線混部業務(即線上業務和離線業務)、支援CUDA AI和渲染應用情境。
功能強大
具備高優先順序的搶佔功能和較高的可營運能力,支援熱升級、支援多卡劃分功能。
cGPU架構圖
GPU容器共用技術cGPU的架構圖如下所示:
為了提高GPU硬體資源的利用率,需要在單張顯卡上運行多個容器,並在多個容器間隔離GPU應用。
cGPU通過自研的核心驅動為容器提供虛擬GPU裝置,在保證效能的前提下隔離顯存和算力,為充分利用GPU硬體資源進行訓練和推理提供有效保障。您可以通過命令方便地配置容器內的虛擬GPU裝置。