このトピックでは、コンピューティングリソース、イメージ、データセット、コードビルドなど、トレーニングジョブを作成する前に準備する必要があるものについて説明します。 Platform for AI (PAI) では、Apsara File Storage NAS (NAS) ファイルシステム、Cloud Parallel file Storage (CPFS) ファイルシステム、またはObject Storage Service (OSS) バケットに格納されたデータセット、およびGitリポジトリに格納されたコードビルドを指定できます。
前提条件
ストレージにOSSを使用する場合は、OSSへのアクセスに必要な権限がDLC (Deep Learning Container) に付与されていることを確認してください。 そうしないと、システムがOSSバケットに保存されているデータにアクセスするときにI/Oエラーが発生する可能性があります。 権限を付与する方法については、「DLCの使用に必要な権限の付与」をご参照ください。
制限事項
OSSは分散オブジェクトストレージサービスです。 OSSを使用してデータを保存する場合、一部のファイルシステム機能はサポートされていません。 たとえば、バケットをマウントした後、OSSバケット内の既存のオブジェクトにデータを追加したり、上書きしたりすることはできません。
ステップ1: リソースの準備
トレーニングジョブを送信する前に、AIトレーニング用のコンピューティングリソースを準備します。 次のいずれかのリソースを選択します。
パブリックリソース
権限を付与すると、一般的なコンピューティングリソース用のパブリックリソースグループが自動的に作成されます。 ワークスペースの [ジョブの作成] ページでトレーニングジョブを作成するときに、パブリックリソースを選択できます。
汎用コンピューティングリソース
専用リソースグループを作成し、必要な汎用コンピューティングリソースを購入して、専用リソースグループにコンピューティングリソースを割り当てることができます。 コンピューティングリソースを割り当てるには、リソースクォータを作成し、トレーニングジョブを実行するワークスペースに関連付ける必要があります。 詳細については、「一般的なコンピューティングリソースのクォータ」をご参照ください。
Lingjun リソース
Lingjunリソースを活用した高性能AIトレーニングを実現するには、必要なLingjunリソースを準備し、リソースクォータを作成し、クォータをワークスペースに関連付ける必要があります。 詳細については、「Lingjun resource quotas」をご参照ください。
ステップ2: 画像を準備する
トレーニングジョブを送信する前に、トレーニング環境のイメージを準備します。 次のいずれかの画像タイプを選択します。
公式PAIイメージ: PAIは、Alibaba Cloudサービス専用のさまざまなフレームワークに基づいた公式イメージを提供します。 これらのイメージは、Alibaba Cloudサービスを使用するトレーニングジョブに適しており、互換性とパフォーマンスが向上します。 DLCトレーニングジョブをサポートするイメージを表示するには、左側のナビゲーションウィンドウでAIアセット管理> イメージを選択します。 [イメージ] ページで、[公式PAIイメージ] タブをクリックし、[モジュール] ドロップダウンリストから [DLC] を選択します。
カスタムイメージ: トレーニングジョブに特別な環境または依存関係が必要な場合は、PAIに追加したカスタムイメージを使用できます。 PAIにカスタムイメージを追加するには、左側のナビゲーションウィンドウで カスタムイメージ」をご参照ください。
を選択します。 画像ページで、カスタム画像タブをクリックし、画像の追加をクリックします。 PAIにカスタムイメージを追加した後、トレーニングジョブを実行するときに直接選択できます。 カスタムイメージの追加方法については、「重要トレーニングジョブにLingjunリソースとカスタムイメージを使用する方法については、「RDMA: 分散トレーニング用の高性能ネットワーク」をご参照ください。
イメージアドレス: トレーニングジョブを送信するときに、カスタムイメージまたは公式イメージのイメージアドレスを指定できます。 イメージアドレスを表示するには、[AIアセット管理]> [イメージ] を選択します。
ステップ3: データセットの準備
トレーニングジョブに必要なデータをOSSバケット、NASファイルシステム、またはCPFSにアップロードし、カスタムデータセットを作成します。 OSSデータまたはパブリックデータセットをマウントすることもできます。 次のセクションでは、カスタムデータセットを準備する方法について説明します。
サポートされるデータセットタイプ
OSS、汎用NAS、Extreme NAS、CPFS、およびLingjunのCPFSのデータセットタイプがサポートされています。 LingjunのCPFSを除くすべてのタイプのデータセットに対して、データセットアクセラレーションを有効にできます。 この機能により、DLCトレーニングジョブのデータ読み取りが高速化されます。
データセットの作成
データセットの作成方法については、「データセットの作成と管理」をご参照ください。 データセットを作成するときは、次の項目に注意してください。
[Alibaba Cloudから] を選択し、[プロパティ] を [フォルダー] に設定します。
NASとは異なり、OSSは分散オブジェクトストレージサービスです。 OSSを使用してデータを保存する場合、一部のファイルシステム機能はサポートされていません。 たとえば、バケットをマウントした後、OSSバケット内の既存のオブジェクトにデータを追加したり、上書きしたりすることはできません。
CPFSデータセットを作成する場合は、仮想プライベートクラウド (VPC) を設定する必要があります。 VPCは、CPFSファイルシステム用に設定したVPCと同じである必要があります。 そうでない場合、提出されたDLCトレーニングジョブは準備環境状態のままであり得る。
データセットアクセラレーションの有効化
データセットのデータセット高速化を有効にして、トレーニングジョブでのデータ読み取りを高速化できます。 詳細については、「データセットアクセラレータの使用」をご参照ください。
ステップ4: コードビルドの準備
コードビルドを作成し、トレーニングジョブに必要なコードをコードビルドに追加します。 コードビルドを作成するには、左側のナビゲーションウィンドウで コードビルド」をご参照ください。
を選択します。 [コード設定] ページで、[コードビルドの作成] をクリックします。 コードビルドを作成した後、トレーニングジョブを実行するときにコードビルドを直接選択できます。 詳細については、「関連ドキュメント
すべてのリソースを準備したら、トレーニングジョブを作成する準備が整います。 詳細については、「トレーニングジョブの送信」をご参照ください。