データセットは、同様の属性を持つか、同じターゲットによって使用されるデータのセットです。 データセットから異なるソースのデータを更新したり、データを削除したりできます。 このトピックでは、AIダッシュボードでデータセットを管理する方法について説明します。
前提条件
クラウドネイティブAIコンポーネントセットがインストールされています。 詳細については、「クラウドネイティブAIスイートのデプロイ」をご参照ください。
AIダッシュボードの管理者の資格情報が取得されます。
既存のPVCに基づく高速化データセットの作成
管理者の資格情報を使用してAIダッシュボードにログインします。
AIダッシュボードの左側のナビゲーションウィンドウで、 を選択します。
高速化するデータセットを選択し、[ Operator] 列の [高速化] をクリックします。
説明他の種類のデータが存在しない場合、[データセットリスト] ページには、現在のクラスター内のすべての永続ボリュームクレーム (PVC) が表示されます。
[データセットの編集] ダイアログボックスで、次のパラメーターを設定します。
高速化するデータセットの名前を指定し、データセットが属する名前空間を選択します。
[ソースタイプ] に [PVC] を選択し、[データソース] を選択し、[Sub Dir] と入力します。
ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。
例として、次のRuntime Configのテンプレートを示します。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: fluid-imagenet spec: replicas: 4 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: "0.99" low: "0.8"
[保存] をクリックします。 データセットの状態にNotReadyが表示されます。 数秒待って 次に、データセットの状態が準備完了に変わります。
OSSに基づく高速化データセットの作成
ステップ1: シークレットの作成
Object Storage Service (OSS) 設定には機密情報が含まれているため、AIダッシュボードに情報を渡す前に暗号化する必要があります。 シークレットを作成する必要があります。 次のYAMLテンプレートが例です。
apiVersion: v1
kind: Secret
metadata:
name: imagenet-oss-xxx
namespace: default
type: kubernetes.io/basic-auth
stringData:
username: <ACCESS_ID>
password: <ACCESS_KEY>
次のコマンドを実行して、シークレットを作成します。
kubectl create -f oss_access_secret.yaml
手順2: OSSに基づく高速化データセットの作成
管理者の資格情報を使用してAIダッシュボードにログインします。
AIダッシュボードの左側のナビゲーションウィンドウで、 を選択します。
[追加] をクリックします。
[データセットの作成] ダイアログボックスで、次のパラメーターを設定します。
作成するデータセットの名前を指定し、データセットが属する名前空間を選択します。
[ソースタイプ] に [OSS] を選択します。 下表に、各パラメーターを説明します。
パラメーター
例
説明
名前
oss-imagenet
カスタム名を入力することができます。
名前空間
default
値を、作成したシークレットの設定で指定された
名前空間
に設定します。 詳細については、「シークレットの作成」をご参照ください。データソース
oss:// my-dawnbench-v2 /
非該当
サブDir
mydawnbench-v2
カスタムサブディレクトリを入力できます。
endpoint
oss-xxx.aliyuncs.com
非該当
accessKeyId
secret: imagenet-oss-xxx
secretKey: ユーザー名
accessKeySecret
secret: imagenet-oss-xxx
secretKey: パスワード
アクセスするノードにデータセットが作成されていることを確認するには、次のコマンドを実行してノードアフィニティを追加します。
aliyun.accelerator/nvidia_name in Tesla-V100-SXM2-16GB;Tesla-V100-SXM2-32GB
ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。
例として、次のRuntime Configのテンプレートを示します。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: oss-imagenet spec: replicas: 2 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: '0.99' low: '0.8'
[保存] をクリックします。 データセットの状態にNotReadyが表示されます。 数秒待って 次に、データセットの状態が準備完了に変わります。
他のストレージサービスに基づく高速化データセットの作成
管理者の資格情報を使用してAIダッシュボードにログインします。
AIダッシュボードの左側のナビゲーションウィンドウで、 を選択します。
[追加] をクリックします。
[データセットの作成] ダイアログボックスで、次のパラメーターを設定します。
作成するデータセットの名前を指定し、データセットが属する名前空間を選択します。
[ソースタイプ] に [その他] を選択し、[データソース] を設定し、[サブDir] を設定します。
ランタイム設定を設定します。nameフィールドは、データセットの名前に設定する必要があります。
次のRuntime Configのテンプレートの例を示します。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: fluid-imagenet spec: replicas: 4 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: "0.99" low: "0.8"
[保存] をクリックします。 データセットの状態にNotReadyが表示されます。 数秒待って 次に、データセットの状態が準備完了に変わります。
データセットの削除
通常のユーザーは、高速化されていないデータセットを削除できません。 データセットを削除できるのは、関連するAlibaba Cloudアカウントを持つ管理者だけです。
管理者としてAIダッシュボードにログインします。
削除するデータセットを見つけて、[演算子] 列の [削除] をクリックします。