すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:データセットまたはOSSパスのマウント

最終更新日:Sep 18, 2024

Data Science Workshop (DSW) では、データセットまたはObject Storage Service (OSS) パスをマウントできます。 これにより、クラウド内のデータにアクセスして処理することができます。 これにより、複数のユーザー間のデータ共有とコラボレーションが容易になり、データの管理とメンテナンスが簡単になり、データの一貫性と適時性が保証されます。 このトピックでは、DSWでデータセットまたはOSSパスをマウントする方法について説明します。

背景情報

Platform for AI (PAI) は、パブリックリソースグループを使用して作成されたDSWインスタンスに特定のクォータを持つクラウドディスクを提供します。 ディスクを使用して、データを永続的に保存できます。 DSWインスタンスを停止し、15日以内に再起動しない場合、ディスクはクリアされます。 専用リソースグループを使用して作成されたDSWインスタンスは、非永続的なローカルストレージを提供します。 DSWデータを永続化する場合は、Apsara File Storage NAS (NAS) 、OSS、またはCloud Parallel File Storage (CPFS) データセットを作成し、そのデータセットをDSWの指定されたパスにマウントします。 これにより、DSWのデータセットからデータを読み書きできます。

マウントモード

DSWを使用すると、さまざまなマウントモードでデータセットまたはOSSパスをマウントできます。 次の表に詳細を示します。

マウントアイテム

サポートされているマウントモード

カスタムデータセット

非OSSデータセット

なし。

OSSデータセット

  • クイック読み取り /書き込み: クイック読み取りと書き込みを保証します。 ただし、同時読み取りまたは書き込み中にデータの不整合が発生する可能性があります。 トレーニングデータとモデルをこのモードのマウントパスにマウントできます。 このモードのマウントパスを作業ディレクトリとして使用しないことを推奨します。

  • 増分読み取り /書き込み: 増分書き込み中のデータの一貫性を保証します。 元のデータを上書きすると、データの不整合が発生する可能性があります。 読み取り速度はやや遅いです。 このモードを使用して、モデル重みファイルをトレーニングデータ用に保存できます。

  • 一貫性のある読み取り /書き込み: 同時読み取りまたは同時書き込み中のデータの一貫性を確保し、高いデータの一貫性が必要で、迅速な読み取りを必要としないシナリオに適しています。 このモードを使用して、プロジェクトのコードを保存できます。

  • 読み取り専用: 読み取りのみを許可します。 このモードを使用して、パブリックデータセットをマウントできます。

  • カスタム設定: [Jindo Configurationsの展開] をクリックして、Jindoのプロパティとパラメーターを設定できます。

パブリックデータセット

OSSパス

次のコードは、各マウントモードのJindo設定を示しています。 JindoFuseの使用方法の詳細については、「JindoFuseのユーザーガイド」をご参照ください。

  • クイック読み取り /書き込み: クイック読み取りと書き込みを保証します。 ただし、同時読み取りまたは書き込み中にデータの不整合が発生する可能性があります。 トレーニングデータとモデルをこのモードのマウントパスにマウントできます。 このモードのマウントパスを作業ディレクトリとして使用しないことを推奨します。

    {
      "fs.oss.download.thread.concurrency": "Twice the number of CPU cores",
      "fs.oss.upload.thread.concurrency": "Twice the number of CPU cores",
      "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
    }
    
  • 増分読み取り /書き込み: 増分書き込み中のデータの一貫性を保証します。 元のデータを上書きすると、データの不整合が発生する可能性があります。 読み取り速度はやや遅いです。 このモードを使用して、モデル重みファイルをトレーニングデータ用に保存できます。

    {
      "fs.oss.upload.thread.concurrency": "Twice the number of CPU cores",
      "fs.jindo.args": "-oattr_timeout=3 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
    }
    
  • 一貫性のある読み取り /書き込み: 同時読み取りまたは同時書き込み中のデータの一貫性を確保し、高いデータの一貫性が必要で、迅速な読み取りを必要としないシナリオに適しています。 このモードを使用して、プロジェクトのコードを保存できます。

    {
      "fs.jindo.args": "-oattr_timeout=0 -oentry_timeout=0 -onegative_timeout=0 -oauto_cache -ono_symlink"
    }
    
  • 読み取り専用: 読み取りのみを許可します。 このモードを使用して、パブリックデータセットをマウントできます。

    {
      "fs.oss.download.thread.concurrency": "Twice the number of CPU cores",
      "fs.jindo.args": "-oro -oattr_timeout=7200 -oentry_timeout=7200 -onegative_timeout=7200 -okernel_cache -ono_symlink"
    }
    

制限事項

  • 複数のデータセットを同じパスにマウントすることはできません。

  • OSSパスがマウントされているパスに対して、書き込み操作を頻繁に実行しないことを推奨します。

カスタムデータセットのマウント

手順1: データセットの作成

PAIコンソールで、AIアセット管理 > データセットを選択します。 [データセット] ページの [カスタムデータセット] タブで、[データセットの作成] をクリックします。 DSWを使用すると、ファイルではなくパスのみをマウントできます。 そのため、[データセットの作成] パネルで [プロパティ] パラメーターを [フォルダー] に設定する必要があります。

詳細については、「データセットの作成と管理」をご参照ください。

手順2: データセットのマウント

モデルトレーニング > データサイエンスワークショップ (DSW) を選択します。 Data Science Workshop (DSW) ページで、[インスタンスの作成] をクリックしてインスタンスを作成するか、既存のインスタンスの設定を変更します。 [インスタンスの作成] ページで、[データセット] を作成したカスタムデータセットに設定し、ビジネス要件に基づいて [マウントパス][マウントモード] を設定します。

その他のパラメーターの詳細については、「DSWインスタンスの作成」をご参照ください。

説明
  • CPFSデータセットを使用する場合は、インスタンスに仮想プライベートクラウド (VPC) を設定する必要があります。 選択するVPCは、CPFSデータセットが存在するVPCと同じである必要があります。 そうしないと、DSWインスタンスの作成に失敗する可能性があります。

  • NASデータセットを使用する場合は、ネットワーク設定を設定し、インスタンスのセキュリティグループを選択する必要があります。

  • 専用リソースグループを選択した場合、NASはOSSよりもFilesystem in Userspace (FUSE) インターフェイスのサポートが優れています。 したがって、最初に追加するデータセットはNASタイプで、指定されたパスとデフォルトのDSW作業ディレクトリ /home/admin/workspaceにマウントする必要があります。

パブリックデータセットのマウント

手順1: データセットの作成

[AIアセット管理] > [データセット] を選択し、[パブリックデータセット] タブをクリックします。 詳細については、「データセットの作成と管理」トピックの「パブリックデータセットを登録してデータセットを作成する」をご参照ください。

ステップ2: データセットのマウント

モデルトレーニング > データサイエンスワークショップ (DSW) を選択します。 Data Science Workshop (DSW) ページで、[インスタンスの作成] をクリックしてインスタンスを作成するか、既存のインスタンスの設定を変更します。 [インスタンスの作成] ページで、[データセット] を既存のパブリックデータセットに設定し、ビジネス要件に基づいてマウントパスマウントモードを設定します。

その他のパラメーターの詳細については、「DSWインスタンスの作成」をご参照ください。

OSSパスのマウント

手順1: OSSバケットの作成

OSS をアクティブにしてバケットを作成します。 詳細については、「OSSの使用を開始」および「バケットの作成」をご参照ください。

説明

バケットが存在するリージョンは、PAIが存在するリージョンと同じでなければなりません。 バケットの作成後にバケットのリージョンを変更することはできません。

手順2: OSSパスのマウント

モデルトレーニング > データサイエンスワークショップ (DSW) を選択します。 Data Science Workshop (DSW) ページで、[インスタンスの作成] をクリックしてインスタンスを作成するか、既存のインスタンスの設定を変更します。 [マウント設定] セクションで、OSSパラメーターとして作成したOSSバケットのパスを選択し、ビジネス要件に基づいてマウントパスマウントモードを設定します。

マウント設定の表示

  1. Data Science Workshop (DSW) ページのインスタンスリストで、管理するDSWインスタンスの [操作] 列で [開く] をクリックします。

  2. Data Science Workshopページの上部ナビゲーションバーで、[ターミナル] タブをクリックします。 指示に従ってターミナルを開きます。

  3. [ターミナル] ページで、次のコマンドを実行して、NASデータセットとOSSデータセットがマウントされているかどうかを確認します。

    # Query the mount path of a NAS dataset.
    mount | grep nas
    # Query the mount path of an OSS dataset.
    mount | grep oss

    次の出力が返されると、データセットがマウントされます。挂载路径

    • NASデータセットは、/mnt/data_nas/mnt/workspace、および /home/admin/workspaceパスにマウントされます。 /mnt/data_nasは、DSWインスタンスの作成時に指定したマウントパスを示します。 他の2つのパスは、最初のNASデータセットに提供されるDSWのデフォルトの作業ディレクトリです。 NASリソースとサーバーが期待どおりに機能する限り、データとコードは保持されます。

    • OSSデータセットは /mnt/data_ossパスにマウントされます。