全部產品
Search
文件中心

Elastic GPU Service:什麼是GPU容器共用技術cGPU

更新時間:Jul 16, 2024

GPU容器共用技術cGPU是阿里雲基於核心虛擬GPU隔離的容器共用技術。即多個容器共用一張GPU卡,從而實現業務的安全隔離,提高GPU硬體資源的利用率並降低使用成本。

為什麼選擇cGPU

  • 相容性好

    不僅適配標準的Docker和Containerd工作方式,而且還無縫相容Kubernetes工作方式。

  • 操作簡單

    無需重編譯AI應用,運行時無需替換CUDA庫。

  • 資源靈活劃分

    物理GPU的資源可以進行任意劃分。例如,GPU顯存動態劃分,支援M級劃分、GPU利用率動態劃分,算力支援最小2%粒度的劃分。

  • GPU執行個體規格無限制

    適用於GPU裸金屬執行個體,虛擬化執行個體,vGPU執行個體等各種GPU執行個體。

  • 應用情境豐富

    支援在離線混部業務(即線上業務和離線業務)、支援CUDA AI和渲染應用情境。

  • 功能強大

    具備高優先順序的搶佔功能和較高的可營運能力,支援熱升級、支援多卡劃分功能。

cGPU架構圖

GPU容器共用技術cGPU的架構圖如下所示:

cGPU架構圖

為了提高GPU硬體資源的利用率,需要在單張顯卡上運行多個容器,並在多個容器間隔離GPU應用。

cGPU通過自研的核心驅動為容器提供虛擬GPU裝置,在保證效能的前提下隔離顯存和算力,為充分利用GPU硬體資源進行訓練和推理提供有效保障。您可以通過命令方便地配置容器內的虛擬GPU裝置。