すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:PyTorchを使用したスタンドアロンのトレーニングジョブを送信する

最終更新日:Jul 22, 2024

このトピックでは、Deep Learning Containers (DLC) を使用して、PyTorchに基づくオフライン転送学習をトレーニングする方法について説明します。

ステップ1: データの準備

このトピックでは、トレーニングに使用されるデータは、パブリックストレージメディアに事前に保存されています。 データを直接ダウンロードでき、追加のデータを準備する必要はありません。

手順2: トレーニングコードとモデルストレージファイルの準備

このトピックでは、トレーニングコードパッケージはパブリックストレージメディアに事前に格納されています。 コードパッケージを直接ダウンロードでき、追加のコードを開発する必要はありません。

ステップ3: ジョブを作成する

  1. [ジョブの作成] ページに移動します。

    1. PAIコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 管理するワークスペースを見つけて、ワークスペースIDをクリックします。

    3. [ワークスペース] ページの左側のナビゲーションウィンドウで、[モデルの開発とトレーニング] > [ディープラーニングコンテナ (DLC)] を選択します。 [分散トレーニングジョブ] ページで、[ジョブの作成] をクリックします。 [ジョブの作成] ページが表示されます。

  2. ジョブの作成ページで、次の表に示すパラメーターを設定し、残りのパラメーターにはデフォルト値を使用します。

    image

    パラメーター

    説明

    ジョブ名

    ジョブの名前を入力します。 例: トーチ-サンプル

    ノードイメージ

    [Alibaba Cloudイメージ] をクリックし、PyTorchイメージを選択します。

    Startupコマンド

    次のコマンドを入力して、データのダウンロード、コードパッケージのダウンロード、トレーニングジョブの実行、モデルの確認を実行します。

    wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz && tar -xf ./data.tar.gz && mv ./hymenoptera_data/ ./input && mkdir output && wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py && python main.py -i ./input -o ./output && ls ./output

    ソース

    [パブリックリソース] を選択します。

    フレームワーク

    [PyTorch] を選択します。

    求人リソース

    • ノード数: 値を1に設定します。

    • インスタンスタイプ: imageをクリックし、ecs.gn6e-c12g1.3xlarge GPUインスタンスタイプを選択します。

  3. OKをクリックします。

    ディープラーニングコンテナ (DLC) ページが表示されます。

ステップ4: トレーニングジョブの詳細とログを表示する

  1. ディープラーニングコンテナ (DLC)ページで、ジョブ名をクリックします。

  2. ジョブの詳細ページで、基本情報リソース情報ジョブの。

  3. では、インスタンスジョブ詳細ページの下部にあるセクションで、目的のノードを見つけて、ログで、アクション列を開き、ノードのログを表示します。