ランダムフォレストフィーチャ重要性評価コンポーネントを使用すると、生データとランダムフォレストモデルを使用してフィーチャ重要性を計算できます。
コンポーネントの設定
次のいずれかの方法を使用して、ランダムフォレストフィーチャ重要度評価コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Random Forest Feature Importance Evaluationコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | フィーチャー列 | オプションです。 トレーニング用に入力テーブルから選択されたフィーチャ列。 デフォルトでは、ラベル列以外のすべての列が選択されます。 |
ターゲット列 | 必須。 ラベル列。 アイコンをクリックします。 [列の選択] ダイアログボックスで、検索する列のキーワードを入力します。 列を選択し、[OK] をクリックします。 | |
パラメーター設定 | 並列計算コア | オプションです。 並列コンピューティングで使用されるコアの数。 |
コアあたりのメモリサイズ | オプションです。 各コアのメモリサイズ。 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
pai -name feature_importance -project algo_public
-DinputTableName=pai_dense_10_10
-DmodelName=xlab_m_random_forests_1_20318_v0
-DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
-DlabelColName=y
-DfeatureColNames="pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、nr_employed、age、campaign、poutcome"
-Dlifecycle=28 ;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
labelColName | 可 | 入力テーブルのラベル列の名前。 | デフォルト値なし |
modelName | 可 | 入力モデルの名前。 | デフォルト値なし |
featureColNames | 不可 | トレーニング用に入力テーブルから選択されたフィーチャ列。 | ラベル列以外のすべての列 |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 | すべてのパーティション |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | 指定なし |
coreNum | 不可 | コアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 | システムによって決定される |
例:
次のSQL文を実行してトレーニングデータを生成します。
drop table if exists pai_dense_10_10; create table if not exists pai_dense_10_10 as select age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y from bank_data limit 10;
次の図に示す実験を作成します。 詳細については、「アルゴリズムモデリング」をご参照ください。
データソースはpai_dense_10_10です。 yはランダムフォレストモデルのラベル列で、その他の列はフィーチャ列です。 [変換強制列] パラメーターの [年齢] と [キャンペーン] を選択します。 これは、2つの列が列挙された機能として処理され、他の列のデフォルト設定が保持されることを示します。
実験を実行し、予測結果を表示します。
実験を実行した後、[ランダムフォレストフィーチャの重要性評価] コンポーネントを右クリックし、[分析レポートの表示] を選択して結果を表示します。