すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データセットの作成と管理

最終更新日:Dec 03, 2024

データ処理またはモデルトレーニングの前にデータセットを準備する必要があります。 Platform for AI (PAI) Asset Managementは、複数のバージョンのデータセットを作成および管理できるデータセット管理機能を提供します。 データセットのバージョン管理により、正確な実験の再現、データバージョンの追跡、データ系統の記録、および問題が発生した場合の以前のバージョンへのシームレスな移行が可能になり、中断のないビジネス運用が保証されます。

概要

データセット管理機能は、基本データセットとラベル付きデータセットの包括的な管理をサポートします。 基本的なデータセットは、典型的には大量の生データを含み、主に事前訓練されたモデルに使用され、幅広い特徴およびパターンを識別する。 手動注釈を介して明示的なラベルで強化されたラベル付きデータセットは、主にモデルの微調整と評価に使用され、特定のタスクのパフォーマンスを向上させます。

項目

基本的なデータセット

ラベル付きデータセット

定義

ラベルなし生データ

ラベルで手動で注釈を付けたデータ

情報処理

データクレンジング、重複削除など

データのラベル付け、検証など

適用シナリオ

  • 教師なし学習

  • 幅広い特徴抽出のための事前トレーニング済みモデル

  • 教師付き学習、モデル評価

  • タスク固有のパフォーマンスのためのモデル微調整

[データセット] ページに移動する

  1. PAI コンソールにログインします。

  2. 左上隅で、リージョンを選択します。

  3. 左側のナビゲーションバーで、[ワークスペース] を選択し、目的のワークスペースの名前をクリックします。

  4. 左側のナビゲーションバーで、[AIアセット管理] > [データセット] を選択します。

基本データセットの作成

[カスタムデータセット] > [基本データセット] タブで、[データセットの作成] をクリックします。

ストレージタイプは、Object Storage Service (OSS) 、ファイルストレージ (汎用NAS、Extreme NAS、CPFS、Lingjun用CPFS) 、MaxComputeなどのさまざまなストレージオプションをサポートしています。

image

次の主要なパラメーターを設定します。

ストレージタイプはOSSです。

パラメーター

説明

タイプ

データ型。 サポートされているタイプには、画像、テキスト、オーディオ、ビデオ、テーブル、および一般があります。 特定のタイプを選択すると、システムは後続のラベル付けシナリオのためにデータセットをフィルタリングします。

Owner

データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます

インポートフォーマット /OSSパス

  • Impore FormatFileに設定されている場合、OSSパスはファイルである必要があります。 作成されたデータセットは、この指定されたファイルに関連付けられます。 これは通常、iTAGデータセットの作成に使用されます。

  • [Import Format][Folder] に設定されている場合、OSSパスはフォルダパスである必要があります。 この経路は、コンテナ内に取り付けることができる。 これは通常、DSWDLCEASなどのサービスのデータセットに使用されます。

デフォルトのマウントパス

DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:

  • DSWでは、インスタンスを作成するときに、作成したファイルシステムをこのパスにマウントできます。

  • DLCでは、python /root/data/file.pyなどのコードを実行するときに、このパスでファイルが検索されます。

バージョンアクセラレーションの有効化

[Import Format][Folder] に設定されている場合、データセットバージョンの高速化を有効にするオプションが使用可能になります。 次の主要なパラメーターを設定します。

  • Maximum Capacity: スロット容量。少なくともデータセットのサイズに等しくなければなりません。 加速が必要なデータセットに基づいて調整します。

  • 高速化マウントターゲット: デフォルトでは、内部マウントターゲットが使用されます。 既存のマウントターゲットを使用するか、新しいマウントターゲットを作成できます。

    説明

    Lingjunリソースを使用する場合、Accelerated Mount TargetCreate Mount Targetに設定されている場合、Mount Target TypeVPCで、選択したVPCとvSwitchはLingjunリソースと一致している必要があります。

  • Accelerated Version Default Mount Path: データセットバージョンのデフォルトのマウントパス。

ストレージタイプはファイルストレージ

パラメーター

説明

タイプ

データ型。 サポートされているタイプには、画像、テキスト、オーディオ、ビデオ、テーブル、および一般があります。 特定のタイプを選択すると、システムは後続のラベル付けシナリオのためにデータセットをフィルタリングします。

Owner

データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます

ファイルシステムの選択

ストレージタイプに対応するファイルシステムを選択します。

マウントターゲット

ファイルシステム下のマウント対象を選択します。

ファイルシステムパス

ファイルシステム内の既存のパス (/など) を選択します。

デフォルトのマウントパス

DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:

  • DSWでは、インスタンスを作成するときに、作成したファイルシステムをこのパスにマウントできます。

  • DLCでは、python /root/data/file.pyなどのコードを実行するときに、このパスでファイルが検索されます。

バージョンアクセラレーションの有効化

ストレージタイプ汎用NASExtreme NAS、およびCloud Parallel File Storage (CPFS) に設定されている場合、データセットバージョンアクセラレーションを有効にするオプションが利用可能になります。 次の主要なパラメーターを設定します。

  • Maximum Capacity: スロット容量。少なくともデータセットのサイズに等しくなければなりません。 加速が必要なデータセットに基づいて調整します。

  • Accelerated Version Default Mount Path: データセットバージョンのデフォルトのマウントパス。

ストレージタイプはMaxCompute

パラメーター

説明

タイプ

Tableのみをサポートします。

Owner

データセットの所有者。 ワークスペース管理者のみがこのパラメーターを設定できます

デフォルトのマウントパス

DSWおよびDLCで通常使用されるデータのデフォルトのマウントパス:

  • DSWでは、インスタンスを作成するときに、作成したファイルシステムをこのパスにマウントできます。

  • DLCでは、python /root/data/file.pyなどのコードを実行するときに、このパスでファイルが検索されます。

バージョンアクセラレーションの有効化

データセットバージョンの高速化を有効にします。 次の主要なパラメーターを設定します。

  • 初期設定: 初期化コードを設定し、[テスト] をクリックします。

  • 高速化マウントターゲット: デフォルトでは、内部マウントターゲットが使用されます。 既存のマウントターゲットを使用するか、新しいマウントターゲットを作成できます。

    説明

    Lingjunリソースを使用する場合、Accelerated Mount TargetCreate Mount Targetに設定されている場合、Mount Target TypeVPCで、選択したVPCとvSwitchはLingjunリソースと一致している必要があります。

  • Accelerated Version Default Mount Path: データセットバージョンのデフォルトのマウントパス。

基本的なデータセットバージョンの作成

[カスタムデータセット] > [基本データセット] タブで、目的のデータセットの [操作] 列の [バージョンの作成] をクリックします。

image

次の主要なパラメータに注意してください。

  • 名前ストレージタイプ、およびタイプはV1バージョンと同じであり、変更できません。

  • システムは自動的にデータセットバージョンを生成し、変更することはできません。

  • その他の主要なパラメーターについては、「基本データセットの作成」をご参照ください。

パブリックデータセットの表示

このシステムは、さまざまなパブリックデータセット (MMLU、CMMLU、GSM8Kなど) を提供します。 [パブリックデータセット] タブでデータセット名をクリックして、データセットの基本情報を表示します。

image

データセットを管理する

基本的なデータセットの場合は、バージョンの表示、新しいバージョンの作成、公開の設定、削除を行うことができます。 ラベル付きデータセットの場合は、データを表示したり、公開したり、削除したりできます。

image

メモを取る:

  • [可視性][データセット所有者にのみ表示] に設定されているデータセットの場合、[データセットをパブリックに設定] をクリックしてワークスペース内のデータセットを共有し、すべてのワークスペースメンバーがそのデータセットを表示できるようにします。 データセットが公開されると、以前の状態に戻すことはできません。 慎重に進んでください。

  • データセットデータをRAMユーザーとして表示するときにアクセス権の問題が発生した場合は、Authorize a RAM userを行います。

  • データセットを削除すると、既存のタスクが中断される場合があります。 データセットを削除すると、復元できません。 慎重に進んでください。