すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DLCトレーニングジョブにクラウドストレージを使用する

最終更新日:Dec 23, 2024

Deep Learning Containers (DLC) でトレーニングジョブを送信する場合、コードまたはマウントによってObject Storage Service (OSS) 、File Storage NAS (NAS) 、Cloud Parallel File Storage (CPFS) 、またはMaxComputeストレージを使用できます。 これにより、トレーニング中にストレージから直接データを読み書きできます。 このトピックでは、DLCジョブのOSS、NAS、CPFS、またはMaxComputeストレージを設定する方法について説明します。

前提条件

OSS の用途

マウントによるOSSの設定

ジョブの作成時にOSSデータセットをマウントできます。 次の表に、サポートされるマウントタイプを示します。 詳細については、「トレーニングジョブの送信」をご参照ください。image

取り付けタイプ

説明

データセット

カスタムデータセットまたはパブリックデータセットをマウントします。 パブリックデータセットは読み取り専用のマウントのみをサポートします。 OSSタイプのデータセットを選択し、マウントパスを設定します。 DLCジョブ中、システムはこのパスに基づいてOSSデータにアクセスできます。

直接マウント

OSSバケットにパスをマウントします。

DLCは JindoFuseを使用してOSSをマウントします。 デフォルトのDLC設定には制限があり (詳細については、「JindoFuse」をご参照ください) 、すべてのシナリオに適しているとは限りません。 次の手順を実行して 変数を調整して条件を満たします。 詳細については、「JindoFuse」をご参照ください。

マウントなしでOSSを設定

DLCジョブは、OSS Pytorch ConnectorまたはOSS SDKを使用してOSSデータを読み書きできます。 ジョブの作成時にコードビルドを設定できます。コードサンプルについては、AI/ML用OSSコネクタまたはOSS SDKをご参照ください。image

NASまたはCPFSの使用

ジョブの作成時にNASまたはCPFSデータセットをマウントできます。 詳細については、「NASの使用」をご参照ください。image

MaxComputeストレージの使用

ジョブの作成時にMaxComputeを使用するようにコードビルドを設定できます。 コードサンプルについては、「MaxComputeの使用」をご参照ください。image

よくある質問

PAIIOを使用してテーブルからデータを読み取るときにエラーが発生しなくても、ログが強制終了されるのはなぜですか?

リソースが限られており、PAIIOに制限がないため、MaxComputeのデータがメモリにロードされると大幅に拡張する場合があります。 オペレーティングシステムおよび他のシステムコンポーネントも、メモリの一部を消費します。