すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ランダムフォレスト機能の重要性評価

最終更新日:Jul 22, 2024

ランダムフォレストフィーチャ重要性評価コンポーネントを使用すると、生データとランダムフォレストモデルを使用してフィーチャ重要性を計算できます。

コンポーネントの設定

次のいずれかの方法を使用して、ランダムフォレストフィーチャ重要度評価コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Random Forest Feature Importance Evaluationコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

オプションです。 トレーニング用に入力テーブルから選択されたフィーチャ列。 デフォルトでは、ラベル列以外のすべての列が選択されます。

ターゲット列

必須。 ラベル列。

アイコンをクリックしDirectoryます。 [列の選択] ダイアログボックスで、検索する列のキーワードを入力します。 列を選択し、[OK] をクリックします。

パラメーター設定

並列計算コア

オプションです。 並列コンピューティングで使用されるコアの数。

コアあたりのメモリサイズ

オプションです。 各コアのメモリサイズ。 単位:MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m、nr_employed、age、campaign、poutcome"
    -Dlifecycle=28 ; 

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

outputTableName

出力テーブルの名前。

デフォルト値なし

labelColName

入力テーブルのラベル列の名前。

デフォルト値なし

modelName

入力モデルの名前。

デフォルト値なし

featureColNames

不可

トレーニング用に入力テーブルから選択されたフィーチャ列。

ラベル列以外のすべての列

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。

すべてのパーティション

ライフサイクル

不可

出力テーブルのライフサイクル。

指定なし

coreNum

不可

コアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。

システムによって決定される

例:

  1. 次のSQL文を実行してトレーニングデータを生成します。

    drop table if exists pai_dense_10_10;
    create table if not exists pai_dense_10_10 as
    select
        age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
    from  bank_data limit 10;
  2. 次の図に示す実験を作成します。 詳細については、「アルゴリズムモデリング」をご参照ください。

    データソースはpai_dense_10_10です。 yはランダムフォレストモデルのラベル列で、その他の列はフィーチャ列です。 [変換強制列] パラメーターの [年齢][キャンペーン] を選択します。 これは、2つの列が列挙された機能として処理され、他の列のデフォルト設定が保持されることを示します。 Generate a model

  3. 実験を実行し、予測結果を表示します。 Result

  4. 実験を実行した後、[ランダムフォレストフィーチャの重要性評価] コンポーネントを右クリックし、[分析レポートの表示] を選択して結果を表示します。 Analysis report