Dataset Accelerator (DatasetAcc) は、クラウドでAIを利用したデータセットを高速化するためにAlibaba Cloud Platform for AI (PAI) が提供するサービスとしてのプラットフォーム (PaaS) サービスです。 このサービスは、トレーニングしたデータセットを事前分析および前処理して全体的なトレーニング効率を向上させることにより、さまざまなクラウドネイティブのトレーニングエンジンに集中データセット高速化ソリューションを提供します。
アーキテクチャ
次の図は、PAIのDataset Acceleratorのアーキテクチャを示しています。
制限事項
Dataset Acceleratorを使用する前に、次の制限事項を理解してください。
Alibaba Cloudに保存されているデータセット (Object Storage Service (OSS) やCloud Parallel File System (CPFS) データセットなど) のみ高速化できます。
データセットは暗号化できません。
データセットアクセラレータのデータは読み取り専用です。 動的データ書き込みはサポートされていません。
データセットアクセラレータは、最大100テラバイトのデータを高速化できます。
課金ルール
Dataset Acceleratorは、容量と期間に基づいて課金されます。 詳細については、「Dataset Acceleratorの課金」をご参照ください。
特徴
画像、テキスト、ビデオなどの大量の小さなファイルのトレーニング最適化。
Dataset Acceleratorは、ディープラーニングトレーニングで使用されるモデルタイプとネットワーク構造に基づいて、画像、テキスト、ビデオなどのデータを事前にパッケージ化して処理し、多数の小さなファイルを含むトレーニングのパフォーマンスを向上させます。
完全に管理されたすぐに使用できるサービス
Dataset Acceleratorは、完全マネージド型ですぐに使用できるクラウドサービスを提供します。
スケーラブルなサービス
Dataset Acceleratorは、サービスとしてのインフラストラクチャ (IaaS) 機能を活用して、迅速なリソースのスケーリングをサポートします。
データ共有
データセットアクセラレータのデータセットは、複数のトレーニングクラスターで使用できます。
データセキュリティ
Dataset Acceleratorは、マルチテナント分離をサポートし、ユーザー間のデータセキュリティを確保します。
基本概念
Dataset Acceleratorを使用する前に、次の概念を理解していることを確認してください。
アクセラレーター
Dataset Acceleratorの課金および管理単位。 サブスクリプションアクセラレータを作成すると、システムは関連するリソースを予約し、アクセラレータの作成時に課金が開始されます。 従量課金制アクセラレータを作成した場合、スロット使用量に基づいてアクセラレータの料金が請求されます。
スロット
アクセラレータ用に複数のスロットを作成できます。 1つのスロットが1つのデータセットを加速します。 これにより、異なるデータセットを同時に使用する深層学習タスクを高速化できます。
アクセラレータとスロットの関係
複数のアクセラレータを作成し、各アクセラレータの容量が異なる複数のスロットに適用できます。 1つのデータセットに1つのスロットが関連付けられる。
手順
Dataset Acceleratorを使用するには、次の手順を実行します。
ビジネス要件、チームサイズ、トレーニング頻度、データセットサイズに基づいてアクセラレータを作成し、複数のスロットを使用して、異なるトレーニングタスクの複数のデータセットを高速化できます。
アクセラレータはクラウドリソースを消費します。 重要なトレーニングタスクを高速化するためにリソースを使用できるようにするには、サブスクリプションの課金方法を使用してアクセラレータを作成することをお勧めします。
トレーニングに使用されるデータセットのサイズに基づいて、アクセラレータにスロットを作成できます。 アクセラレータには複数のスロットを含めることができます。 全てのスロットの総容量は、スロットが属するアクセラレータの容量を超えることはできない。
スロットを作成した後、システムは、トレーニングに使用されるデータ型、データサイズ、フレームワーク、モデルなどの要素に基づいて、関連付けられたデータセットを前処理します。 初期化が完了すると、アクセラレータはトレーニングタスクに関連するインターフェイスを提供します。
PAIでデータセットを作成するときに、データセットの高速化を有効にできます。 Data Science Workshop (DSW) インスタンスを作成するとき、またはDeep Learning Containers (DLC) ジョブを送信するときに、高速化データセットを使用して、データの読み取り効率を向上させることができます。