您可以使用未經處理資料和隨機森林模型,計算特徵重要性。
組件配置
您可以使用以下任意一種方式,配置隨機森林特徵重要性組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 選擇特徵列 | 輸入表中,用於訓練的特徵列。預設選中除Label外的所有列,為可選項。 |
選擇目標列 | 該參數為必選項。 單擊表徵圖,在選擇欄位對話方塊中,輸入關鍵字搜尋列,選中後單擊確定。 | |
參數設定 | 並行計算核心數 | 並行計算的核心數,可選。 |
每個核記憶體大小 | 每個核的記憶體大小,單位為MB,可選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
pai -name feature_importance -project algo_public
-DinputTableName=pai_dense_10_10
-DmodelName=xlab_m_random_forests_1_20318_v0
-DoutputTableName=erkang_test_dev.pai_temp_2252_20319_1
-DlabelColName=y
-DfeatureColNames="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-Dlifecycle=28 ;
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
outputTableName | 是 | 輸出表的名稱。 | 無 |
labelColName | 是 | 輸入表的標籤列名。 | 無 |
modelName | 是 | 輸入的模型名稱。 | 無 |
featureColNames | 否 | 輸入表選擇的特徵列。 | 除Label外的所有列 |
inputTablePartitions | 否 | 輸入表選擇的分區名稱。 | 選擇全表 |
lifecycle | 否 | 輸出表的生命週期。 | 不設定 |
coreNum | 否 | 核心數。 | 自動計算 |
memSizePerCore | 否 | 記憶體數,單位為MB。 | 自動計算 |
樣本
使用SQL語句,產生訓練資料。
drop table if exists pai_dense_10_10; create table if not exists pai_dense_10_10 as select age,campaign,pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, y from bank_data limit 10;
構建如下實驗,詳情請參見演算法建模。
資料來源為pai_dense_10_10,y為隨機森林的標籤列,其它列為特徵列。強制轉換列選擇age和campaign,表示將這兩列作為枚舉特徵處理,其它使用預設參數。
運行實驗,查看預測結果。
運行完成後,按右鍵隨機森林特徵重要性組件,選擇查看分析報告,查看結果。