cGPU - Elastic GPU Service - Alibaba Cloud ドキュメントセンター

cGPUは、カーネルに基づいて仮想GPU (vGPU) を分離するためにAlibaba Cloudが提供するコンテナ共有テクノロジーです。複数の分離コンテナは単一のGPUを共有します。これにより、ビジネスセキュリティが確保され、GPUハードウェアリソースの利用が向上し、コストが削減されます。

メリット

高い互換性
cGPUは、Docker、Containerd、Kubernetesなどのオープンソースコンテナーテクノロジと互換性があります。.
使いやすさ
cGPUを実行するときに、AIアプリケーションを再コンパイルしたり、Compute Unified Device Architecture (CUDA) ライブラリを置き換える必要はありません。
柔軟なリソース割り当て
cGPUを使用すると、物理GPUを割り当てることができますビジネス要件に基づいて柔軟な方法でリソースを提供します。たとえば、GPUメモリをMBレベルで動的に割り当て、GPU使用率を指定し、最小計算能力比を2% に設定できます。
無制限のGPU高速化インスタンスタイプ
cGPUは、仮想化されたGPU高速化ECS (Elastic Compute Service) ベアメタルインスタンスなど、さまざまなカテゴリのGPU高速化インスタンスに適用できます。インスタンス、およびvGPU高速化インスタンス。
幅広いビジネスシナリオ
cGPUは、オンラインとオフラインのワークロードのコロケーションをサポートしており、CUDAベースのAIおよびレンダリングシナリオで使用できます。
強力な機能
cGPUは、優先度の高いタスクのプリエンプションをサポートし、高いO&M、ホットアップグレード、およびマルチGPU割り当て機能を提供します。

cGPUアーキテクチャ

次の図は、cGPUのアーキテクチャを示してい。

cGPU架构图

GPUハードウェアリソースの利用率を向上させるために、1つのGPUで複数のコンテナーを実行し、コンテナー間でGPUベースのアプリケーションを分離することができます。

cGPUは、Alibaba Cloudが開発したカーネルドライバーを使用して、コンテナー用のvGPUデバイスを提供します。これにより、パフォーマンスを損なうことなく、GPUメモリとGPUの計算能力が分離されます。これにより、トレーニングおよび推論シナリオでのGPUハードウェアリソースの利用も最大化されます。コマンドを実行して、コンテナー内のvGPUデバイスを便利な方法で設定できます。