Machine Learning Designerはバッチ予測をサポートしています。 モデルを使用して、リアルタイムの結果を必要としないビジネスシナリオのデータセットに定期的なバッチ予測を実装できます。 このトピックでは、Machine Learning Designerプラットフォームでバッチ予測を実装する方法について説明します。
開発環境でのバッチ予測の実装
Designerは、さまざまなアルゴリズムとシナリオをサポートするさまざまな予測コンポーネントを提供します。 これらのコンポーネントは、キャンバス上に直接ドラッグアンドドロップできます。
左側のコンポーネントペインに表示されているモデルのトレーニングコンポーネントと予測コンポーネントのペアを直接使用してモデルをトレーニングし、そのモデルを使用してバッチ予測を実装できます。
使用するアルゴリズムで使用できる予測コンポーネントがない場合は、モデルのトレーニング後に汎用予測コンポーネントを使用してバッチ予測を実装できます。
重要汎用予測コンポーネントは、OfflineModelモデルのみをサポートします。 PMML (Predictive Model Markup Language) モデルはサポートしていません。
既存のモデルが利用可能な場合は、コンポーネントを使用してモデルと予測データをインポートすることもできます。 次に、予測コンポーネントをコンポーネントの下流ノードとして接続して、予測と展開を実装します。
定期的にバッチ予測パイプラインをスケジュールする
バッチ予測パイプラインがテストに合格した後、パイプラインをDataWorksに送信し、定期的にスケジュールすることができます。 詳細については、「Machine Learning DesignerでのDataWorksタスクの使用によるパイプラインのスケジュール」をご参照ください。
ワークスペースがDataWorks標準モードの場合、開発環境と本番環境はMaxComputeデータを別々に保持します。 したがって、オフライン予測ワークフローを定期的にスケジュールする前に、オフラインでトレーニングされたモデルを本番環境に同期する必要があります。 次のいずれかの方法を使用して、モデルを同期できます。
[MaxComputeオフラインモデルのコピー] および [MaxComputeオフラインモデルの読み取り] コンポーネントの使用
[MaxComputeオフラインモデルのコピー] コンポーネントを使用して、トレーニング済みのOfflineModelモデルを本番環境にレプリケートし、定期的にスケジュールされたパイプラインで [MaxComputeオフラインモデルの読み取り] コンポーネントを使用して、本番環境でモデルを読み取ります。
モデルをレプリケートするとき、システムは本番環境でMaxComputeデータを書き込む必要があります。 したがって、レプリケート操作を実行するには、ワークスペース管理者アカウントまたは運用アカウントを使用する必要があります。 詳細については、「異なるモードのワークスペースに関連付けられたMaxCompute計算エンジンインスタンスでのデータアクセス動作と必要なアクセス許可」をご参照ください。
モデルエクスポートおよびMaxComputeオフラインモデルのインポートコンポーネントの使用 (推奨)
Model Exportコンポーネントを使用して、トレーニング済みのOfflineModelモデルをObject Storage Service (OSS) にエクスポートし、定期的にスケジュールされたパイプラインのImport MaxCompute Offline modelコンポーネントを使用して、モデルをOSSからインポートします。
関連ドキュメント
オフライン予測結果が期待に沿っている場合は、モデルをオンラインサービスとしてEASにデプロイできます。 詳細については、「オンラインサービスとしてのモデルのデプロイ」をご参照ください。
Machine Learning Designerを使用すると、パイプラインをモデルとしてパッケージ化した後、バッチデータ処理パイプラインをオンラインサービスとしてEASにデプロイできます。 詳細については、「オンラインサービスとしてのパイプラインのデプロイ」をご参照ください。