特徴選択 (フィルタ法) は、モデリングの前に、相関係数や情報ゲインなどの統計的メトリックを使用して特徴の重要性を評価する前処理技術です。 この方法は、ターゲット変数に最も寄与する特徴を識別し、選択する。 特定の機械学習アルゴリズムとは独立して動作し、その効率と実装の容易さで認識されており、大規模なデータセットの次元削減に理想的です。
制限事項
特徴選択 (フィルタ方法) アルゴリズムは、LIBSVMまたはキー値ペア形式のデータを直接処理することはできません。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページに [機能選択 (フィルター方法)] コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールドの設定 | フィーチャー列 | トレーニング用に入力テーブルから選択されたフィーチャ列の名前。 |
ターゲット列 | フィーチャとターゲットの相関を計算するために入力テーブルから選択されたラベル列の名前。 | |
列挙機能 | 列挙機能であり、特定の処理またはエンコーディング (ワンホットエンコーディングなど) が必要な場合がある機能を指定します。 | |
スパースフィーチャー (K:V、K:V) | フィーチャがキーと値のペア形式のスパースフィーチャであるかどうかを指定します。これは、高次元のスパースデータ、特にテキスト処理では一般的です。 | |
パラメーター設定 | 特徴の選択方法 | フィーチャ選択の統計方法を選択します。 オプション:
|
トップNの特徴 | 選択されるべき上位N個の特徴。 指定された数が入力フィーチャの数より大きい場合、すべてのフィーチャが選択されます。 | |
連続フィーチャー分割方法 | 連続フィーチャの分割方法。 有効な値:
| |
連続機能離散化間隔 | 連続フィーチャを離散化する間隔の数を設定します。 これは、連続特徴分割法が等しい幅分割である場合にのみ必要です。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用して、[機能選択 (フィルター方法)] コンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name fe_select_runner -project algo_public
-DfeatImportanceTable=pai_temp_2260_22603_2
-DselectMethod=iv
-DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
-DtopN=5
-DlabelCol=y
-DmaxBins=100
-DinputTable=pai_dense_10_9
-DoutputTable=pai_temp_2260_22603_1;
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTable | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | 不可 | すべてのパーティション | トレーニングで使用される入力テーブルのパーティション。 サポートされる形式は次のとおりです。
|
outputTable | 可 | なし | フィルタリング後に生成されるフィーチャ結果テーブル。 |
featImportanceTable | 可 | なし | すべての入力フィーチャの重要度重み値を格納するテーブル。 |
selectedCols | 可 | なし | トレーニング用に選択したフィーチャ列。 |
labelCol | 可 | なし | 入力テーブルから選択されたターゲット列。 |
categoryCols | ✕ | なし | 列挙機能の列。INTまたはDOUBLEデータ型の列のみがサポートされます。 |
maxBins | 不可 | 100 | 連続フィーチャ分割の間隔の最大数。 |
selectMethod | 不可 | iv | フィーチャの選択に使用されるメソッド。 有効なオプションは、iv、GiniGain、InfoGain、およびLassoです。 |
topN | 不可 | 10 | 選択されるべき上位N個の特徴。 指定された数が入力フィーチャの数より大きい場合、すべてのフィーチャが選択されます。 |
isSparse | 不可 | false | フィーチャがキーと値のペア形式のスパースフィーチャかどうかを指定します。 falseの値は、密な特徴を示します。 |