全部產品
Search
文件中心

Platform For AI:隨機森林特徵重要性

更新時間:Jul 13, 2024

您可以使用未經處理資料和隨機森林模型,計算特徵重要性。

組件配置

您可以使用以下任意一種方式,配置隨機森林特徵重要性組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇特徵列

輸入表中,用於訓練的特徵列。預設選中除Label外的所有列,為可選項。

選擇目標列

該參數為必選項。

單擊目錄表徵圖,在選擇欄位對話方塊中,輸入關鍵字搜尋列,選中後單擊確定

參數設定

並行計算核心數

並行計算的核心數,可選。

每個核記憶體大小

每個核的記憶體大小,單位為MB,可選。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

pai -name feature_importance -project algo_public
    -DinputTableName=pai_dense_10_10
    -DmodelName=xlab_m_random_forests_1_20318_v0
    -DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
    -DlabelColName=y
    -DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -Dlifecycle=28 ;

參數名稱

是否必選

描述

預設值

inputTableName

輸入表的名稱。

outputTableName

輸出表的名稱。

labelColName

輸入表的標籤列名。

modelName

輸入的模型名稱。

featureColNames

輸入表選擇的特徵列。

除Label外的所有列

inputTablePartitions

輸入表選擇的分區名稱。

選擇全表

lifecycle

輸出表的生命週期。

不設定

coreNum

核心數。

自動計算

memSizePerCore

記憶體數,單位為MB。

自動計算

樣本

  1. 使用SQL語句,產生訓練資料。

    drop table if exists pai_dense_10_10;
    create table if not exists pai_dense_10_10 as
    select
        age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y
    from  bank_data limit 10;
  2. 構建如下實驗,詳情請參見演算法建模

    資料來源為pai_dense_10_10y為隨機森林的標籤列,其它列為特徵列。強制轉換列選擇agecampaign,表示將這兩列作為枚舉特徵處理,其它使用預設參數。演算法建模

  3. 運行實驗,查看預測結果。結果

  4. 運行完成後,按右鍵隨機森林特徵重要性組件,選擇查看分析報告,查看結果。分析報告