すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:特徴選択 (フィルタ方式)

最終更新日:Dec 11, 2024

特徴選択 (フィルタ法) は、モデリングの前に、相関係数や情報ゲインなどの統計的メトリックを使用して特徴の重要性を評価する前処理技術です。 この方法は、ターゲット変数に最も寄与する特徴を識別し、選択する。 特定の機械学習アルゴリズムとは独立して動作し、その効率と実装の容易さで認識されており、大規模なデータセットの次元削減に理想的です。

制限事項

特徴選択 (フィルタ方法) アルゴリズムは、LIBSVMまたはキー値ペア形式のデータを直接処理することはできません。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページに [機能選択 (フィルター方法)] コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

フィールドの設定

フィーチャー列

トレーニング用に入力テーブルから選択されたフィーチャ列の名前。

ターゲット列

フィーチャとターゲットの相関を計算するために入力テーブルから選択されたラベル列の名前。

列挙機能

列挙機能であり、特定の処理またはエンコーディング (ワンホットエンコーディングなど) が必要な場合がある機能を指定します。

スパースフィーチャー (K:V、K:V)

フィーチャがキーと値のペア形式のスパースフィーチャであるかどうかを指定します。これは、高次元のスパースデータ、特にテキスト処理では一般的です。

パラメーター設定

特徴の選択方法

フィーチャ選択の統計方法を選択します。 オプション:

  • IV: バイナリ分類シナリオで頻繁に適用される、ターゲット変数に関連する特徴の予測能力を測定します。

  • ジニゲイン: 主に特定の特徴の重要性を評価するために使用され、決定木のコンテキストで頻繁に使用されます。

  • 情報利得: 単一の特徴によって達成される目標変数の不確実性の低減を定量化し、それによって、目標の予測に対する特徴の寄与を評価する。

  • Lasso: L1正則化を使用して大規模な特徴セット内で次元削減と特徴選択を実現する線形モデルでの特徴選択に使用されます。

トップNの特徴

選択されるべき上位N個の特徴。 指定された数が入力フィーチャの数より大きい場合、すべてのフィーチャが選択されます。

連続フィーチャー分割方法

連続フィーチャの分割方法。 有効な値:

  • 自動パーティショニング: アルゴリズムは、データ分布に基づいて最適なパーティションポイントを自律的に選択します。

  • 均等幅分割: データ範囲を均等幅の間隔に分割します。これは、不均一な分布では効果が低くなる可能性のある簡単な方法です。

連続機能離散化間隔

連続フィーチャを離散化する間隔の数を設定します。 これは、連続特徴分割法等しい幅分割である場合にのみ必要です。

方法2: PAIコマンドを使用する

PAIコマンドを使用して、[機能選択 (フィルター方法)] コンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name fe_select_runner -project algo_public 
     -DfeatImportanceTable=pai_temp_2260_22603_2 
     -DselectMethod=iv 
     -DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign 
     -DtopN=5 
     -DlabelCol=y 
     -DmaxBins=100 
     -DinputTable=pai_dense_10_9 
     -DoutputTable=pai_temp_2260_22603_1;

パラメーター

必須 / 任意

デフォルト値

説明

inputTable

なし

入力テーブルの名前。

inputTablePartitions

不可

すべてのパーティション

トレーニングで使用される入力テーブルのパーティション。 サポートされる形式は次のとおりです。

  • partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティショニングの場合

    説明

    コンマ (,) を使用して複数のパーティションを区切ります。たとえば、name1=value1,value2です。

outputTable

なし

フィルタリング後に生成されるフィーチャ結果テーブル。

featImportanceTable

なし

すべての入力フィーチャの重要度重み値を格納するテーブル。

selectedCols

なし

トレーニング用に選択したフィーチャ列。

labelCol

なし

入力テーブルから選択されたターゲット列。

categoryCols

なし

列挙機能の列。INTまたはDOUBLEデータ型の列のみがサポートされます。

maxBins

不可

100

連続フィーチャ分割の間隔の最大数。

selectMethod

不可

iv

フィーチャの選択に使用されるメソッド。 有効なオプションは、iv、GiniGain、InfoGain、およびLassoです。

topN

不可

10

選択されるべき上位N個の特徴。 指定された数が入力フィーチャの数より大きい場合、すべてのフィーチャが選択されます。

isSparse

不可

false

フィーチャがキーと値のペア形式のスパースフィーチャかどうかを指定します。 falseの値は、密な特徴を示します。