すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データセットアクセラレータ

最終更新日:Nov 29, 2024

Dataset Accelerator (DatasetAcc) は、クラウドでAIを利用したデータセットを高速化するためにAlibaba Cloud Platform for AI (PAI) が提供するサービスとしてのプラットフォーム (PaaS) サービスです。 このサービスは、トレーニングしたデータセットを事前分析および前処理して全体的なトレーニング効率を向上させることにより、さまざまなクラウドネイティブのトレーニングエンジンに集中データセット高速化ソリューションを提供します。

アーキテクチャ

次の図は、PAIのDataset Acceleratorのアーキテクチャを示しています。 使用数据集加速器

制限事項

Dataset Acceleratorを使用する前に、次の制限事項を理解してください。

  • Alibaba Cloudに保存されているデータセット (Object Storage Service (OSS) やCloud Parallel File System (CPFS) データセットなど) のみ高速化できます。

  • データセットは暗号化できません。

  • データセットアクセラレータのデータは読み取り専用です。 動的データ書き込みはサポートされていません。

  • データセットアクセラレータは、最大100テラバイトのデータを高速化できます。

課金ルール

Dataset Acceleratorは、容量と期間に基づいて課金されます。 詳細については、「Dataset Acceleratorの課金」をご参照ください。

特徴

  • 画像、テキスト、ビデオなどの大量の小さなファイルのトレーニング最適化。

    Dataset Acceleratorは、ディープラーニングトレーニングで使用されるモデルタイプとネットワーク構造に基づいて、画像、テキスト、ビデオなどのデータを事前にパッケージ化して処理し、多数の小さなファイルを含むトレーニングのパフォーマンスを向上させます。

  • 完全に管理されたすぐに使用できるサービス

    Dataset Acceleratorは、完全マネージド型ですぐに使用できるクラウドサービスを提供します。

  • スケーラブルなサービス

    Dataset Acceleratorは、サービスとしてのインフラストラクチャ (IaaS) 機能を活用して、迅速なリソースのスケーリングをサポートします。

  • データ共有

    データセットアクセラレータのデータセットは、複数のトレーニングクラスターで使用できます。

  • データセキュリティ

    Dataset Acceleratorは、マルチテナント分離をサポートし、ユーザー間のデータセキュリティを確保します。

基本概念

Dataset Acceleratorを使用する前に、次の概念を理解していることを確認してください。

  • アクセラレーター

    Dataset Acceleratorの課金および管理単位。 サブスクリプションアクセラレータを作成すると、システムは関連するリソースを予約し、アクセラレータの作成時に課金が開始されます。 従量課金制アクセラレータを作成した場合、スロット使用量に基づいてアクセラレータの料金が請求されます。

  • スロット

    アクセラレータ用に複数のスロットを作成できます。 1つのスロットが1つのデータセットを加速します。 これにより、異なるデータセットを同時に使用する深層学習タスクを高速化できます。

  • アクセラレータとスロットの関係

    複数のアクセラレータを作成し、各アクセラレータの容量が異なる複数のスロットに適用できます。 1つのデータセットに1つのスロットが関連付けられる。

    image

手順

Dataset Acceleratorを使用するには、次の手順を実行します。

  1. アクセラレータの作成と管理

    ビジネス要件、チームサイズ、トレーニング頻度、データセットサイズに基づいてアクセラレータを作成し、複数のスロットを使用して、異なるトレーニングタスクの複数のデータセットを高速化できます。

    アクセラレータはクラウドリソースを消費します。 重要なトレーニングタスクを高速化するためにリソースを使用できるようにするには、サブスクリプションの課金方法を使用してアクセラレータを作成することをお勧めします。

  2. スロットの作成と管理

    トレーニングに使用されるデータセットのサイズに基づいて、アクセラレータにスロットを作成できます。 アクセラレータには複数のスロットを含めることができます。 全てのスロットの総容量は、スロットが属するアクセラレータの容量を超えることはできない。

    スロットを作成した後、システムは、トレーニングに使用されるデータ型、データサイズ、フレームワーク、モデルなどの要素に基づいて、関連付けられたデータセットを前処理します。 初期化が完了すると、アクセラレータはトレーニングタスクに関連するインターフェイスを提供します。

  3. データセットアクセラレータの使用

    PAIでデータセットを作成するときに、データセットの高速化を有効にできます。 Data Science Workshop (DSW) インスタンスを作成するとき、またはDeep Learning Containers (DLC) ジョブを送信するときに、高速化データセットを使用して、データの読み取り効率を向上させることができます。