AIコンピューティング高速デプロイツールキットFastGPU - Elastic GPU Service

FastGPU は、AI コンピューティング向けに Alibaba Cloud が提供する、一連の高速デプロイツールです。 FastGPUは、AIトレーニングおよび推論タスクをAlibaba Cloud IaaSリソースに短期間でデプロイするために使用できる便利なインターフェイスと自動ツールを提供します。

概要

FastGPUは、オフラインAIを接続する上で重要な役割を果たします多数のオンラインGPUへのアルゴリズム Alibaba Cloudのコンピューティングリソース。 FastGPUを使用して、Alibaba Cloud IaaSでAIコンピューティングタスクを簡単に構築できます。表します。 FastGPUを使用してAIコンピューティングタスクを構築する場合、IaaSレイヤーにコンピューティング、ストレージ、またはネットワークリソースをデプロイする必要はありません。 FastGPUは、タスクのコードを自動的に適応、デプロイ、実行します。

FastGPUは、次のコンポーネントを提供します。

ncluster: 実行時コンポーネント。このコンポーネントは、Alibaba Cloud IaaSリソースにオフラインAIトレーニングおよび推論スクリプトを迅速にデプロイするために使用できる便利なインターフェイスを提供します。コンポーネントの詳細については、「FastGPU SDK For Pythonの使用」をご参照ください。
ecluster: コマンドラインコンポーネント。このコンポーネントは、Alibaba Cloud AIコンピューティングタスクの実行ステータスとクラスターのライフサイクルを管理するために使用できるコマンドラインベースのツールを提供します。コンポーネントの詳細については、「コマンドリファレンス」をご参照ください。

アーキテクチャ

次の図は、FastGPUのアーキテクチャを示しています。 fastgpu-arc

下のレイヤー: API操作が行われるインタラクションレイヤー Alibaba Cloudリソースを使用するために呼び出されます。
中間層: 実行中のAIタスクに関与するIaaS層リソースのオブジェクトがカプセル化された後に形成されるAlibaba Cloudバックエンド層。
上位層: AIタスクがAlibaba Cloudインスタンスリソースにマップされた後に形成されるユーザーコントロール層。
Alibaba Cloud上でIaaSレベルのAIコンピューティングタスクを短期間で構築するには、ユーザーコントロール層とのやり取りのみが必要です。

フローチャート

たとえば、FastGPUを使用してトレーニングタスクを完了する場合、次の段階が含まれます。

ステージ1: FastGPUの使用を開始します。
トレーニングデータセットをObject Storage Service (OSS) にアップロードするトレーニングコードを保存する開発ホストとしてElastic Compute Service (ECS) インスタンスを作成します。
ステージ2: FastGPUはすぐにコンピューティングタスクを構築します。
1. FastGPUは、開発ホストにクラスターをデプロイし、タスクに必要なリソースを作成します。リソースには、CPUなどのコンピューティングリソースが含まれます。とGPU、クラウドディスクやApsara File storage NAS (NAS) ファイルシステムなどのストレージリソース、TmuxやTensorBoardなどのインタラクティブリソース。
2. 分散トレーニングタスクは自動的に開始されます。トレーニングプロセス中に、インタラクティブリソースを使用してトレーニングステータスをリアルタイムで表示できます。
3. リソースは、分散トレーニングタスクが完了すると自動的にリリースされます。
ステージ3: トレーニングタスクが完了したら、後続の操作を実行します。
トレーニング済みのモデルとログファイルを開発ホストのクラウドディスクまたはOSSリソースに保存します。これにより、タスクの結果を表示できます。