全部產品
Search
文件中心

Platform For AI:線性模型特徵重要性

更新時間:Jul 13, 2024

線性模型特徵重要性組件用於計算線性模型的特徵重要性,包括線性迴歸和二分類羅吉斯迴歸,支援稀疏和稠密資料格式。本文為您介紹該組件的配置方法。

使用限制

支援的計算引擎為MaxCompute。

組件配置

您可以使用以下任意一種方式,配置線性模型特徵重要性組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇特徵列

輸入表中,用於訓練的特徵列。預設選中除標籤列(例如Label)外的所有列,為可選項。

選擇目標列

該參數為必選項。單擊選擇欄位,選擇標籤列。

輸入表資料是否為稀疏格式

可選項。

執行調優

計算核心數

計算的核心數,可選。

每個核記憶體大小

每個核的記憶體大小,單位為MB,可選。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name regression_feature_importance -project algo_public
    -DmodelName=xlab_m_logisticregressi_20317_v0
    -DoutputTableName=pai_temp_2252_20321_1
    -DlabelColName=y
    -DfeatureColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign
    -DenableSparse=false -DinputTableName=pai_dense_10_9;

參數

是否必選

描述

預設值

inputTableName

輸入表的表名。

outputTableName

輸出表的表名。

labelColName

輸入表的標籤列名。

modelName

輸入的模型名稱。

featureColNames

輸入表選擇的特徵列。

除Label外的所有列

inputTablePartitions

輸入表選擇的分區名稱。

選擇全表

enableSparse

輸入表是否為稀疏格式。

false

itemDelimiter

當輸入表資料為稀疏格式時,KV對之間的分隔字元。

空格

kvDelimiter

當輸入表資料為稀疏格式時,Key和Value之間的分隔字元。

半形冒號(:)

lifecycle

輸出表的生命週期。

不設定

coreNum

核心數。

自動計算

memSizePerCore

記憶體數。

自動計算

樣本

  1. 建立bank_data表,並匯入表資料。具體操作,請參見建立表匯入資料

  2. 使用SQL語句,產生訓練資料。

    create table if not exists pai_dense_10_9 as
    select
        age,campaign,pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed, fixed_deposit
    from  bank_data limit 10;
  3. 構建如下工作流程,並運行組件,詳情請參見演算法建模image

    1. 在Designer左側組件列表中,分別搜尋讀資料表組件、羅吉斯迴歸多分類組件、線性模型特徵重要性組件,並拖入右側畫布中。

    2. 參照上圖,通過連線的方式,將各個節點群組織構建成為一個有上下遊關係的工作流程。

    3. 配置組件參數。

      • 在畫布中單擊讀資料表-1組件,在右側表選擇頁簽,配置表名為bank_data。

      • 在畫布中單擊羅吉斯迴歸多分類-1組件,在右側欄位設定頁簽,選擇訓練特徵列為age、campaign、pdays、previous、emp_var_rate、cons_price_idx、cons_conf_idx、euribor3m和nr_employed。選擇目標列為fixed_deposit。其餘參數使用預設值。

      • 在畫布中單擊線性模型特徵重要性-1組件,在右側欄位設定頁簽,將選擇目標列配置為fixed_deposit。其餘參數使用預設值。

    4. 參數配置完成後,單擊運行按鈕image,運行工作流程。

  4. 工作流程運行成功後,按右鍵線性模型特徵重要性-1組件,在捷徑功能表,選擇查看資料 > 模型重要性表image

    指標計算公式如下。

    列名

    公式

    weight

    abs(w_)

    importance

    abs(w_j) * STD(f_i)

    說明

    表示特徵係數的絕對值 * 訓練資料的標準差。

  5. 按右鍵線性模型特徵重要性-1組件,在捷徑功能表,單擊可視化分析,查看可視化分析結果。image

相關文檔

  • 關於Designer組件更詳細的內容介紹,請參見Designer概述

  • Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總