JOINコンポーネントは、reduceステージではなくmapステージでテーブルを結合します。 このようにして、シャッフル段階で大量のデータを伝送する必要がなく、ジョブが最適化される。 たとえば、大きなテーブルと小さなテーブルを結合する必要がある場合は、小さなテーブルのデータをメモリにロードできます。 これにより、作業効率が向上する。
コンポーネントの設定
JOINコンポーネントは、Machine Learning Designerのパイプラインページでのみ設定できます。 下表に、各パラメーターを説明します。
パラメーター | 説明 |
結合タイプ | 結合タイプ。 有効な値: Left Join、Inner Join、Right Join、Full Join。 |
MapJoin最適化 | JOIN操作の実行を高速化するために、小さなテーブルのデータをメモリにロードするかどうかを指定します。 有効な値:
|
結合条件 | 式の形式である結合条件。 手動で結合条件を追加または削除できます。 |
左テーブルから出力列を選択 | 左のテーブルからの出力列。 |
右側のテーブルから出力列を選択 | 右側のテーブルからの出力列。 |