フィルタリングおよびマッピングコンポーネントは、ユーザー定義のフィルタ条件式を使用してデータをフィルタリングするデータ前処理ツールです。 このコンポーネントを使用すると、フィルタリングする列の名前を変更できます。 これは、データを効果的にクリーニングし、その後の分析とモデリングに適したデータセットを準備できるため、データクリーニングとフィーチャエンジニアリングの段階で非常に役立ちます。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページにフィルターとマッピングコンポーネントを追加し、次のパラメーターを設定します。
パラメーター | 説明 |
マッピングルール | フィルタリングする列。 デフォルトでは、すべての列が選択されています。 列の名前を変更することもできます。 |
フィルター条件 | SQL文のWHERE句と同様に、指定したWHERE句はデータのフィルタリングに使用されます。 例: age>40 説明 次の演算子のみがサポートされています。
|
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name Filter
-project algo_public
-DoutTableName="test_9"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition"
-Dfilter="age>=40";
パラメーター | 必須 / 任意 | 説明 |
outputTableName | 可 | 出力テーブルの名前。 |
inputPartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 テーブル全体を選択する場合は、パラメーターをNoneに設定します。 |
inputTableName | 可 | 入力テーブルの名前。 |
filter | 不可 | SQL文のWHERE句と同様に、指定したWHERE句はデータのフィルタリングに使用されます。 例: age>40 |