すべてのプロダクト
Search
ドキュメントセンター

:データセットを管理する

最終更新日:Nov 14, 2024

データセットは、同様の属性を持つか、同じターゲットによって使用されるデータのセットです。 データセットから異なるソースのデータを更新したり、データを削除したりできます。 このトピックでは、AIダッシュボードでデータセットを管理する方法について説明します。

前提条件

  • クラウドネイティブAIコンポーネントセットがインストールされています。 詳細については、「クラウドネイティブAIスイートのデプロイ」をご参照ください。

  • AIダッシュボードの管理者の資格情報が取得されます。

既存のPVCに基づく高速化データセットの作成

  1. 管理者の資格情報を使用してAIダッシュボードにログインします。

  2. AIダッシュボードの左側のナビゲーションウィンドウで、[データセット] > [データセットリスト] を選択します。

  3. 高速化するデータセットを選択し、[ Operator] 列の [高速化] をクリックします。

    説明

    他の種類のデータが存在しない場合、[データセットリスト] ページには、現在のクラスター内のすべての永続ボリュームクレーム (PVC) が表示されます。

  4. [データセットの編集] ダイアログボックスで、次のパラメーターを設定します。

    • 高速化するデータセットの名前を指定し、データセットが属する名前空間を選択します。

    • [ソースタイプ][PVC] を選択し、[データソース] を選択し、[Sub Dir] と入力します。

    • ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。

      例として、次のRuntime Configのテンプレートを示します。

      apiVersion: data.fluid.io/v1alpha1
      kind: JindoRuntime
      metadata:
        name: fluid-imagenet
      spec:
        replicas: 4
        data:
          replicas: 1
        tieredstore:
          levels:
            - mediumtype: SSD
              path: /var/lib/docker/alluxio
              quota: 150Gi
              high: "0.99"
              low: "0.8"
  5. [保存] をクリックします。 データセットの状態NotReadyが表示されます。 数秒待って 次に、データセットの状態準備完了に変わります。

OSSに基づく高速化データセットの作成

ステップ1: シークレットの作成

Object Storage Service (OSS) 設定には機密情報が含まれているため、AIダッシュボードに情報を渡す前に暗号化する必要があります。 シークレットを作成する必要があります。 次のYAMLテンプレートが例です。

apiVersion: v1
kind: Secret
metadata:
  name: imagenet-oss-xxx
  namespace: default
type: kubernetes.io/basic-auth
stringData:
  username: <ACCESS_ID>
  password: <ACCESS_KEY>

次のコマンドを実行して、シークレットを作成します。

kubectl create -f oss_access_secret.yaml

手順2: OSSに基づく高速化データセットの作成

  1. 管理者の資格情報を使用してAIダッシュボードにログインします。

  2. AIダッシュボードの左側のナビゲーションウィンドウで、[データセット] > [データセットリスト] を選択します。

  3. [追加] をクリックします。

  4. [データセットの作成] ダイアログボックスで、次のパラメーターを設定します。

    1. 作成するデータセットの名前を指定し、データセットが属する名前空間を選択します。

    2. [ソースタイプ][OSS] を選択します。 下表に、各パラメーターを説明します。

      AI-6

      パラメーター

      説明

      名前

      oss-imagenet

      カスタム名を入力することができます。

      名前空間

      default

      値を、作成したシークレットの設定で指定された名前空間に設定します。 詳細については、「シークレットの作成」をご参照ください。

      データソース

      oss:// my-dawnbench-v2 /

      非該当

      サブDir

      mydawnbench-v2

      カスタムサブディレクトリを入力できます。

      endpoint

      oss-xxx.aliyuncs.com

      非該当

      accessKeyId

      • secret: imagenet-oss-xxx

      • secretKey: ユーザー名

      • 作成したシークレットの名前secretを設定します。 詳細については、「シークレットの作成」をご参照ください。

      • secretkeyを、作成したシークレットの設定で指定されたユーザー名に設定します。 詳細については、「シークレットの作成」をご参照ください。

      accessKeySecret

      • secret: imagenet-oss-xxx

      • secretKey: パスワード

      • 作成したシークレットの名前secretを設定します。 詳細については、「シークレットの作成」をご参照ください。

      • secretkeyを、作成したシークレットの設定で指定されたpasswordに設定します。 詳細については、「シークレットの作成」をご参照ください。

    3. アクセスするノードにデータセットが作成されていることを確認するには、次のコマンドを実行してノードアフィニティを追加します。

      aliyun.accelerator/nvidia_name in Tesla-V100-SXM2-16GB;Tesla-V100-SXM2-32GB
    4. ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。

      例として、次のRuntime Configのテンプレートを示します。

      apiVersion: data.fluid.io/v1alpha1
      kind: JindoRuntime
      metadata:
        name: oss-imagenet
      spec:
        replicas: 2
        data:
          replicas: 1
        tieredstore:
          levels:
            - mediumtype: SSD
              path: /var/lib/docker/alluxio
              quota: 150Gi
              high: '0.99'
              low: '0.8'
  5. [保存] をクリックします。 データセットの状態NotReadyが表示されます。 数秒待って 次に、データセットの状態準備完了に変わります。

他のストレージサービスに基づく高速化データセットの作成

  1. 管理者の資格情報を使用してAIダッシュボードにログインします。

  2. AIダッシュボードの左側のナビゲーションウィンドウで、[データセット] > [データセットリスト] を選択します。

  3. [追加] をクリックします。

  4. [データセットの作成] ダイアログボックスで、次のパラメーターを設定します。

    • 作成するデータセットの名前を指定し、データセットが属する名前空間を選択します。

    • [ソースタイプ][その他] を選択し、[データソース] を設定し、[サブDir] を設定します。

    • ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。

      次のRuntime Configのテンプレートの例を示します。

      apiVersion: data.fluid.io/v1alpha1
      kind: JindoRuntime
      metadata:
        name: fluid-imagenet
      spec:
        replicas: 4
        data:
          replicas: 1
        tieredstore:
          levels:
            - mediumtype: SSD
              path: /var/lib/docker/alluxio
              quota: 150Gi
              high: "0.99"
              low: "0.8"
  5. [保存] をクリックします。 データセットの状態NotReadyが表示されます。 数秒待って 次に、データセットの状態準備完了に変わります。

データセットの削除

重要

通常のユーザーは、高速化されていないデータセットを削除できません。 データセットを削除できるのは、関連するAlibaba Cloudアカウントを持つ管理者だけです。

  1. 管理者としてAIダッシュボードにログインします。

  2. 削除するデータセットを見つけて、[演算子] 列の [削除] をクリックします。