高精度モデルには高品質のデータセットが必要です。 データ準備の目標は、高品質のデータセットを作成することです。 Platform for AI (PAI) は、Alibaba Cloudストレージサービスに保存されているデータなど、さまざまな種類のデータに基づいてデータセットを作成できるデータセット管理モジュールを提供します。 このモジュールでは、Object Storage Service (OSS) フォルダーをスキャンしてデータセットを生成することもでき、インテリジェントなラベリングやモデルトレーニングに使用できる一般的なサードパーティのパブリックデータセットを提供します。 このトピックでは、データセットを作成および管理する方法について説明します。
概要
データセットモジュールでは、カスタムデータセットを作成したり、パブリックデータセットを使用したりできます。
カスタムデータセットを作成します。
Alibaba Cloudストレージサービスに保存されているデータに基づいてデータセットを作成する: OSSまたはApsara File storage NAS (NAS) に保存されているデータに基づいてデータセットを作成します。 データセットは、後続のデータ処理またはモデリングで使用できます。
フォルダをスキャンしてデータセットを作成する: OSSに保存されているファイルをスキャンして、拡張子が *.manifestであるインデックスファイルを生成し、そのインデックスファイルをデータセットとして使用します。 iTAGが使用されるシナリオでデータセットを使用できます。
パブリックデータセットを登録してデータセットを作成します。
データセット管理モジュールで使用できるパブリックデータセットは、MMLU、CMMLU、GSM8Kなどのオープンソースデータセットです。 Alibaba Cloudは、サードパーティデータセットの可用性、コンプライアンス、およびセキュリティについて責任を負いません。 データセットを使用する前に、必ずサードパーティの契約を読んで、合法的かつ準拠した使用を確保してください。
前提条件
AIワークスペースが作成されます。 登録するデータセットがAIワークスペースに追加されます。
制限事項
中国 (Ulanqab) リージョンでは、Alibaba Cloudストレージサービスのデータを使用するか、フォルダーをスキャンすることによってのみ、データセットを作成できます。
LingjunデータセットのCPFSは、中国 (Ulanqab) リージョンでのみ作成できます。 Alibaba Cloud File Storage (CPFS) データセットは、中国 (Ulanqab) リージョンではサポートされていません。
アカウントと権限の要件
Alibaba Cloudアカウント: Alibaba Cloudアカウントを使用して、追加の権限なしですべての操作を完了できます。
RAMユーザー: RAMユーザーに次の権限を付与します。
データセット関連の権限
RAMユーザーを特定のロールのワークスペースメンバーとして追加し、ロールに権限を割り当てる必要があります。 ロールの権限については、[ロールと権限] ページを参照してください。 RAMユーザーをワークスペースメンバーとして追加する方法については、「ワークスペースメンバーの管理」をご参照ください。
OSSデータセットを使用するときにOSSバケットを表示および使用する権限
次のスクリプトを使用してポリシーを作成し、そのポリシーをRAMユーザーにアタッチします。 ポリシーの作成方法については、「カスタムポリシーの作成」をご参照ください。 RAMユーザーに権限を付与する方法については、「RAMユーザーに権限を付与する」をご参照ください。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "oss:ListBuckets", "oss:GetBucketStat", "oss:GetBucketInfo", "oss:GetBucketTagging", "oss:GetBucketLifecycle", "oss:GetBucketWorm", "oss:GetBucketVersioning", "oss:GetBucketAcl", "oss:PutObject", "oss:GetBucketCors", "oss:PutBucketCors" ], "Resource": "acs:oss:*:*:*" }, { "Effect": "Allow", "Action": [ "oss:ListObjects", "oss:GetBucketAcl" ], "Resource": "acs:oss:*:*:mybucket" }, { "Effect": "Allow", "Action": [ "oss:GetObject", "oss:GetObjectAcl" ], "Resource": "acs:oss:*:*:mybucket/*" } ] }
NASまたはCPFSデータセットを使用する場合に、ファイルシステムとプロトコルサービス情報 (CPFSのみ) を照会する権限を含む、NASファイルシステムを表示および使用する権限
次のスクリプトを使用してポリシーを作成し、そのポリシーをRAMユーザーにアタッチします。 ポリシーの作成方法については、「カスタムポリシーの作成」をご参照ください。 RAMユーザーに権限を付与する方法については、「RAMユーザーに権限を付与する」をご参照ください。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "nas:DescribeFileSystems", "nas:DescribeProtocolMountTarget", "nas:DescribeProtocolService " ], "Resource": "acs:nas:*:*:filesystem/*" } ] }
カスタムデータセットの作成
[データセット] ページに移動します。
PAIコンソールにログインします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、使用するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[AIコンピューティングアセットの管理] > [データセット] を選択します。
[カスタムデータセット] タブで、[データセットの作成] をクリックします。
Alibaba Cloudストレージサービスに保存されているデータに基づくデータセットの作成
[Create Dataset] パラメーターを [From Alibaba Cloud] に設定した場合、[Select Data Storage] パラメーターを、OSS、汎用NAS、Extreme NAS、Cloud Paralleled File System (CPFS) 、またはLINGJUNのCPFSのいずれかの値に設定できます。 次のセクションでは、各ストレージサービスに設定する必要があるパラメーターについて説明します。
説明Elastic Algorithm Service (EAS) では、汎用NASタイプのデータセットのみをマウントできます。
LINGJUNデータセットのCPFSは、中国 (Ulanqab) リージョンでのみ作成できます。
Deep Learning Containers (DLC) およびData Science Workshop (DSW) ジョブ用に暗号化送信が設定されているNASファイルシステムをマウントできます。
OSS
パラメーター
説明
プロパティ
データセットの所有者
データセットの所有者。 このパラメーターを設定できるのはワークスペース管理者のみです。
データセットタイプ
データセットのタイプ。 有効な値: 画像、テキスト、オーディオ、ビデオ、および一般。 特定のデータセットタイプを選択すると、後続のラベル付けシナリオで指定されたタイプのデータセットが表示されます。
デフォルトのマウントパス
DLCおよびDSWでは、デフォルトのマウントパスを使用できます。
DSWでインスタンスを作成すると、作成したファイルシステムをデフォルトのマウントパスにマウントできます。
DLCでコードを実行すると、システムはデフォルトのマウントパスでファイルを検索します。 例:
python /root/data/file.py
データセットアクセラレーションの有効化
このパラメーターは、[プロパティ] パラメーターを [フォルダー] に設定した場合にのみ使用できます。 詳細については、「データセットアクセラレータの概要」をご参照ください。 次のパラメータに注意してください。
最大容量: スロットの容量を指定します。 スロット容量は、データセット容量以上でなければなりません。
高速化マウントターゲット: デフォルトでは、内部マウントターゲットが使用されます。 既存のマウントターゲットを使用するか、マウントターゲットを作成できます。
説明Lingjunリソースを使用し、Accelerated Mount TargetパラメーターをCreate Mount Targetに設定した場合、Mount Target TypeパラメーターをVPCに設定します。 さらに、VPCとvSwitchは、使用するLingjunリソースと同じである必要があります。
Accelerated Dataset Default Mount Path: データのデフォルトのマウントパス。
NAS/CPFS
パラメーター
説明
データセットの所有者
データセットの所有者。 このパラメーターを設定できるのはワークスペース管理者のみです。
データセットタイプ
データセットのタイプ。 有効な値: 画像、テキスト、オーディオ、ビデオ、および一般。 特定のデータセットタイプを選択すると、後続のラベル付けシナリオで指定されたタイプのデータセットが表示されます。
ファイルシステムの選択
ファイルシステムを選択します。 ファイルシステムのタイプは、Select Data Storageパラメーターに指定した値と同じである必要があります。
マウントターゲット
NASファイルシステムへのアクセスに使用されるマウントターゲット。
ファイルシステムパス
NASファイルシステムの既存のパス。 例:
/
。デフォルトのマウントパス
DLCおよびDSWでは、デフォルトのマウントパスを使用できます。
DSWでインスタンスを作成すると、作成したファイルシステムをデフォルトのマウントパスにマウントできます。
DLCでコードを実行すると、システムはデフォルトのマウントパスでファイルを検索します。 例:
python /root/data/file.py
データセットアクセラレーションの有効化
このパラメーターは、Select Data Storageパラメーターを汎用NAS、Extreme NAS、またはCPFSに設定した場合にのみ使用できます。 詳細については、「データセットアクセラレータの概要」をご参照ください。 次のパラメータに注意してください。
最大容量: スロットの容量を指定します。 スロット容量は、データセット容量以上でなければなりません。
高速化マウントターゲット: デフォルトでは、内部マウントターゲットが使用されます。 既存のマウントターゲットを使用するか、マウントターゲットを作成できます。
説明Lingjunリソースを使用し、Accelerated Mount TargetパラメーターをCreate Mount Targetに設定した場合、Mount Target TypeパラメーターをVPCに設定する必要があります。 さらに、VPCとvSwitchは、使用するLingjunリソースと同じである必要があります。
Accelerated Dataset Default Mount Path: データのデフォルトのマウントパス。
フォルダーのスキャンによるデータセットの作成
パラメーター
説明
データセットの所有者
データセットの所有者。 このパラメーターを設定できるのはワークスペース管理者のみです。
データセットタイプ
データセットのタイプ。 有効な値: 画像、テキスト、オーディオ、ビデオ、および一般。 特定のデータセットタイプを選択すると、後続のラベル付けシナリオで指定されたタイプのデータセットが表示されます。
パスワイルドカード
パスのワイルドカードは、指定された形式のファイルをスキャンしてフィルタリングするために使用されます。 最大100,000個のファイルをスキャンできます。
プレビュー
[スキャン] をクリックします。 システムは、指定されたOSSパスとワイルドカード文字に基づいてファイルにインデックスを付け、JSONL形式でファイルをプレビューします。
結果を保存する
スキャンが完了すると、dataset_****.manifestという名前のファイルが生成されます。 ファイル名を変更し、ファイルが保存されているOSSパスを選択できます。
[送信] をクリックします。
パブリックデータセット
[Dataset Manager] ページに移動します。
PAIコンソールにログインします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、使用するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[AIコンピューティングアセットの管理] > [データセット] を選択します。
[パブリックデータセット] タブで、利用可能なパブリックデータセットを表示します。
データセット管理モジュールは、MMLU、CMMLU、GSM8Kなどのさまざまなパブリックデータセットを提供します。 データセットの名前をクリックすると、データセットの詳細を表示できます。
データセットを管理する
PAIコンソールの [データセット] ページで、管理権限を持つすべてのデータセットを表示できます。 データセットに対して操作を実行することもできます。 たとえば、データセットの詳細を表示したり、データセットを削除したりできます。
管理するデータセットを見つけ、[データセットの表示] をクリックして、データセットのOSSパスに移動し、データセットの詳細を表示します。 [削除] をクリックしてデータセットを削除することもできます。
説明パブリックデータセットの表示に使用するRAMユーザーに必要な権限がない場合、Alibaba Cloudアカウントを使用してAliyunOSSFullAccess権限をRAMユーザーに付与する必要があります。 詳細については、「RAMユーザーの資格情報を使用してOSSコンソールにログインする」トピックの「手順2: RAMユーザーに権限を付与する」をご参照ください。
AliyunOSSFullAccess権限が付与されたRAMユーザーを使用してパブリックデータセットを表示するときに、関連する権限がないことを示すメッセージが表示された場合は、そのメッセージを無視してウィンドウを閉じます。
表示範囲が [データセットの所有者にのみ表示] のデータセットの場合、[データセットを公開に設定] をクリックすると、ワークスペースのすべてのユーザーがデータセットを表示できます。
重要データセットの表示範囲をワークスペースでパブリックに表示するように設定すると、データセットの表示範囲をデータセット所有者に対して表示のみに設定できなくなります。 作業は慎重に行ってください。
データセットにラベルを追加し、ラベルキーまたはラベル値でデータセットをフィルタリングできます。
[データセット管理] ページの右上隅にある列フィルターアイコンをクリックして、データセットリストに表示する列を指定できます。