パイプラインの実行効率を向上させるために、Machine Learning Platform for AI (PAI) のMachine Learning Designerでは、キャンバス上の複数のAlinkノードをグループ化して一度に実行できます。 さらに、Machine Learning DesignerはAlinkインテリジェント集計機能を提供します。 この機能により、グループ化できるAlinkノードを自動的に識別できます。
背景情報
Alinkは、Realtime Compute for Apache Flinkに基づいてAlibaba Cloud PAIチームによって開発された新世代の機械学習アルゴリズムフレームワークおよびコンポーネントライブラリです。 Machine Learning Designerは、Alinkのストリーム処理およびバッチ処理コンポーネントを提供します。 これらのコンポーネントは、Flinkに基づく機械学習ワークフローの合理化に役立ちます。 ワークフローには、データ前処理、機能エンジニアリング、モデルトレーニング、および予測が含まれます。
Machine Learning Designerの左側のコンポーネントライブラリでは、次の図に示すように、紫色のドットでマークされているコンポーネントはAlinkコンポーネントです。 Machine Learning Designerを使用すると、キャンバス上のAlinkノードを手動でグループ化し、一度に実行できます。 これにより、実行効率とリソース利用率が向上します。 詳細については、「複数のAlinkノードのグループ化」をご参照ください。 さらに、Machine Learning Designerには、キャンバス上でグループ化できるAlinkノードを自動的に識別する機能もあります。 詳細については、「Alinkインテリジェント集計」をご参照ください。
複数のAlinkノードをグループ化する
Alinkコンポーネントは、他のフレームワークのコンポーネントと同じ方法で使用できます。 Machine Learning Designerには、グループ内のすべてのAlinkノードを一度に実行できる機能があります。 この機能は、高性能のインメモリデータ処理エンジンであるFlinkに基づいて開発されています。
次の手順を実行して、キャンバス上のAlinkノードをグループに整理できます。
キャンバス上で複数のAlinkノードを選択します。
Shiftキーを押し、複数のAlinkノードをクリックできます。 または、キャンバスの左上隅にあるアイコンをクリックしてボックスを描画し、複数のAlinkノードを選択することもできます。
キャンバス上の空白の領域を右クリックし、表示されるショートカットメニューから [Alinkにノードを選択] を選択します。
キャンバス上では、次の図に示すように、1つのグループに属するAlinkノードが、破線の丸みを帯びた長方形で表示されます。
長方形の右上隅にあるアイコンをクリックして、AlinkグループのWorkerおよびMemory per Worker Nodeパラメーターを設定できます。 Alinkグループの設定は、Alinkグループ内の各Alinkノードの設定よりも優先度が高くなります。 Alinkグループ内のAlinkノードは一度に実行されます。 実行中に生成された中間データはディスクに保存されません。 これにより、実行効率とリソース利用率が向上します。
Alinkインテリジェント集約
Alinkインテリジェント集約機能は、キャンバス上でグループ化できるAlinkノードを自動的に識別し、それらをグループ化して、中間データを送信する際のオーバーヘッドを減らすことができます。 これにより、リソースの利用率とパイプラインの実行効率が向上します。
Machine Learning DesignerでパイプラインのAlinkインテリジェント集計機能を有効にするには、キャンバスの左上隅にあるアイコンをクリックします。