すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DataWorksタスクを使用してMachine Learning Designerでパイプラインをスケジュールする

最終更新日:Jan 24, 2025

Machine Learning Designer of Platform for AI (PAI) では、DataWorksタスクを使用してパイプラインをオフラインでスケジュールし、モデルを定期的に更新し、モデルトレーニング用のパイプラインを作成できます。 このトピックでは、DataWorksタスクを使用して、機械学習デザイナーパイプラインをオフラインで定期的にスケジュールし、タスクスケジューリング中にPAIモデルをObject Storage Service (OSS) に自動的に同期する方法について説明します。

前提条件

  • パイプライン内のすべてのノードが正常に実行されます。

  • DataWorksがアクティブ化され、ワークフローが作成されます。 詳細については、「ワークフローの作成」をご参照ください。

重要

ワークフローが存在するワークスペースは、Machine Learning Designerパイプラインのワークスペースと同じである必要があります。 それ以外の場合、オフラインスケジューリングタスクを作成するときにワークフローにPathパラメーターを設定することはできません。

  • DataWorksワークフローが存在するワークスペースが標準モードの場合、MaxComputeデータは開発環境と本番環境の間で分離されているため、定期的なタスクがスケジュールされる前に、オフライントレーニングによって生成されたモデルを本番環境に同期します。 詳細については、「バッチ予測パイプラインを定期的にスケジュールする」をご参照ください。

手順

説明

DataWorksのPAI-DesignerパイプラインとDesignerノードの比率は1:Nです。つまり、同じPAI-Designerパイプラインに基づいて、DataWorksに複数のDesignerノードを作成できます。

  1. PAIコンソールにログインし、目的のワークスペースを選択し、視覚化モデリングを入力 (デザイナー)をクリックします。 表示されるページで、目的のパイプラインをダブルクリックします。

  2. (オプション) 定期的なタスクスケジューリング中にMachine Learning DesignerのモデルをOSSに同期する必要がある場合は、Model Exportコンポーネントを追加します。

    1. [パイプライン属性] タブで、[データストレージ] をモデルファイルが保存されているOSSパスに設定します。

    2. PMML形式でモデルファイルをエクスポートする必要がある場合は、[バイナリ分類のロジスティック回帰] コンポーネントなどの目的のモデルコンポーネントをクリックし、コンポーネントの [フィールド設定] タブで [PMMLを生成するかどうか] を選択します。

      説明

      特定のモデルコンポーネントのみが、PMML形式のモデルファイルのエクスポートをサポートします。 この機能をサポートしていないモデルコンポーネントの場合は、この手順をスキップします。

    3. モデルコンポーネントを下流のモデルエクスポートコンポーネントに接続します。 詳細については、「モデルのエクスポート」をご参照ください。

  3. DataWorksタスクを使用して、Machine Learning Designerパイプラインをオフラインでスケジュールします。

    1. キャンバスの左上隅にある [定期スケジューリング] をクリックします。 表示されるダイアログボックスで、[スケジューリングノードの作成] をクリックします。 DataWorksの [ノードの作成] ダイアログボックスで、ノード名を指定し、[確認] をクリックします。

    2. ノードの編集ページで、PAIデザイナー実験を選択ドロップダウンリストからMachine Learning Designerで作成したパイプラインを選択します。

      Machine Learning Designerでパイプラインを変更する場合は、[PAI Designerで編集] をクリックします。 编辑页面

    3. ノードの編集タブで、右側のナビゲーションウィンドウで [プロパティ] タブをクリックします。 [プロパティ] パネルで、ノードのスケジューリングプロパティを設定します。

      [プロパティ] パネルには、[全般][スケジューリングパラメーター][スケジュール][リソースグループ][依存関係] の各セクションがあります。 [スケジュール] セクションでスケジューリングサイクルを指定できます。 DataWorksは、指定したスケジューリングサイクルに基づいてパイプラインを自動的に実行します。 詳細については、「スケジューリングプロパティの設定」をご参照ください。

      説明

      DataWorksでのスケジューリング中に、「Start Container timeout」に関連するエラーが報告されることがあります。 これは、タイムアウトの問題が時々発生するためです。 時間プロパティを設定するときは、[失敗時の自動再実行] 機能を有効にすることを推奨します。 この機能を有効にすると、スケジューリングシステムは、指定された再実行回数と再実行間隔に基づいて、失敗したパイプラインを自動的に再実行します (ユーザーが停止したパイプラインは除外します) 。

      调度配置

    4. ツールバーの保存提交アイコンをクリックして画面の指示に従ってノードを保存およびコミットします。

      重要

      ノードをコミットする前に、[プロパティ] パネルで [再実行] パラメーターと [親ノード] パラメーターを設定する必要があります。

      使用するワークスペースが標準モードの場合、ノードをコミットした後、ページ上部の [デプロイ] をクリックします。 詳細については、「ノードのデプロイ」をご参照ください。

    5. ページの上部にある操作センターをクリックして、機械学習タスクのステータスと操作ログを表示します。

      ノードのデータをバックフィルし、パイプラインをテストすることもできます。 詳細については、「自動トリガータスクの表示と管理」をご参照ください。

参考情報