データ処理またはモデルトレーニングの前にデータセットを準備する必要があります。 Platform for AI (PAI) Asset Managementは、複数のバージョンのデータセットを作成および管理できるデータセット管理機能を提供します。 データセットのバージョン管理により、正確な実験の再現、データバージョンの追跡、データ系統の記録、および問題が発生した場合の以前のバージョンへのシームレスな移行が可能になり、中断のないビジネス運用が保証されます。
概要
データセット管理機能は、基本データセットとラベル付きデータセットの包括的な管理をサポートします。 基本的なデータセットは、典型的には大量の生データを含み、主に事前訓練されたモデルに使用され、幅広い特徴およびパターンを識別する。 手動注釈を介して明示的なラベルで強化されたラベル付きデータセットは、主にモデルの微調整と評価に使用され、特定のタスクのパフォーマンスを向上させます。
項目 | 基本的なデータセット | ラベル付きデータセット |
定義 | ラベルなし生データ | ラベルで手動で注釈を付けたデータ |
情報処理 | データクレンジング、重複削除など | データのラベル付け、検証など |
適用シナリオ |
|
|
[データセット] ページに移動する
PAI コンソールにログインします。
左上隅で、リージョンを選択します。
左側のナビゲーションバーで、[ワークスペース] を選択し、目的のワークスペースの名前をクリックします。
左側のナビゲーションバーで、[AIアセット管理] > [データセット] を選択します。
基本データセットの作成
[カスタムデータセット] > [基本データセット] タブで、[データセットの作成] をクリックします。
ストレージタイプは、Object Storage Service (OSS) 、ファイルストレージ (汎用NAS、Extreme NAS、CPFS、Lingjun用CPFS) 、MaxComputeなどのさまざまなストレージオプションをサポートしています。
次の主要なパラメーターを設定します。
ストレージタイプはOSSです。
パラメーター | 説明 |
タイプ | データ型。 サポートされているタイプには、画像、テキスト、オーディオ、ビデオ、テーブル、および一般があります。 特定のタイプを選択すると、システムは後続のラベル付けシナリオのためにデータセットをフィルタリングします。 |
Owner | データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます。 |
インポートフォーマット /OSSパス | |
デフォルトのマウントパス | DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:
|
バージョンアクセラレーションの有効化 | [Import Format] が [Folder] に設定されている場合、データセットバージョンの高速化を有効にするオプションが使用可能になります。 次の主要なパラメーターを設定します。
|
ストレージタイプはファイルストレージ
パラメーター | 説明 |
タイプ | データ型。 サポートされているタイプには、画像、テキスト、オーディオ、ビデオ、テーブル、および一般があります。 特定のタイプを選択すると、システムは後続のラベル付けシナリオのためにデータセットをフィルタリングします。 |
Owner | データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます。 |
ファイルシステムの選択 | ストレージタイプに対応するファイルシステムを選択します。 |
マウントターゲット | ファイルシステム下のマウント対象を選択します。 |
ファイルシステムパス | ファイルシステム内の既存のパス ( |
デフォルトのマウントパス | DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:
|
バージョンアクセラレーションの有効化 | ストレージタイプが汎用NAS、Extreme NAS、およびCloud Parallel File Storage (CPFS) に設定されている場合、データセットバージョンアクセラレーションを有効にするオプションが利用可能になります。 次の主要なパラメーターを設定します。
|
ストレージタイプはMaxCompute
パラメーター | 説明 |
タイプ | Tableのみをサポートします。 |
Owner | データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます。 |
デフォルトのマウントパス | DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:
|
バージョンアクセラレーションの有効化 | データセットバージョンの高速化を有効にします。 次の主要なパラメーターを設定します。
|
基本的なデータセットバージョンの作成
[カスタムデータセット] > [基本データセット] タブで、目的のデータセットの [操作] 列の [バージョンの作成] をクリックします。
次の主要なパラメータに注意してください。
名前、ストレージタイプ、およびタイプはV1バージョンと同じであり、変更できません。
システムは自動的にデータセットバージョンを生成し、変更することはできません。
その他の主要なパラメーターについては、「基本データセットの作成」をご参照ください。
パブリックデータセットの表示
このシステムは、さまざまなパブリックデータセット (MMLU、CMMLU、GSM8Kなど) を提供します。 [パブリックデータセット] タブでデータセット名をクリックして、データセットの基本情報を表示します。
データセットを管理する
基本的なデータセットの場合は、バージョンの表示、新しいバージョンの作成、公開の設定、削除を行うことができます。 ラベル付きデータセットの場合は、データを表示したり、公開したり、削除したりできます。
メモを取る:
[可視性] が [データセット所有者にのみ表示] に設定されているデータセットの場合、[データセットをパブリックに設定] をクリックしてワークスペース内のデータセットを共有し、すべてのワークスペースメンバーがそのデータセットを表示できるようにします。 データセットが公開されると、以前の状態に戻すことはできません。 慎重に進んでください。
データセットデータをRAMユーザーとして表示するときにアクセス権の問題が発生した場合は、Authorize a RAM userを行います。
データセットを削除すると、既存のタスクが中断される場合があります。 データセットを削除すると、復元できません。 慎重に進んでください。