共變數演算法是一種用于衡量兩個隨機變數之間線性關係的統計方法。它通過計算變數的偏差乘積的期望值,評估它們如何共同變化。共變數在機率論和統計學中具有重要意義,並在機器學習中廣泛應用於特徵選取和資料預先處理等任務。
演算法說明
共變數的定義
共變數定義為兩個隨機變數的偏差乘積的期望值。具體公式如下:
X和Y是兩個隨機變數。
μ和ν分別是X和Y的期望值。
E表示期望運算。
共變數的性質
正共變數:表示兩個變數呈正相關關係,即一個變數增加時,另一個變數也傾向於增加。
負共變數:表示兩個變數呈負相關關係,即一個變數增加時,另一個變數傾向於減少。
零共變數:表示兩個變數之間沒有線性關係。
組件配置
方式一:可視化方式
在Designer工作流程頁面添加共變數組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
欄位設定 | 輸入列 | 選擇輸入列,只支援bigint與double類型。 |
進行調優 | 核心數 | 計算的核心數,如果未配置,則系統自動分配。 |
記憶體數 | 每個核心的記憶體,如果未配置,則系統自動分配,單位為MB。 |
方式二:PAI命令方式
使用PAI命令配置共變數組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name cov
-project algo_public
-DinputTableName=maple_test_cov_basic12x10_input
-DoutputTableName=maple_test_cov_basic12x10_output
-DcoreNum=6
-DmemSizePerCore=110;
參數名稱 | 是否必須 | 預設值 | 描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 輸入表的所有分區 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。 |
outputTableName | 是 | 無 | 輸出表名稱。 |
selectedColNames | 否 | 選擇全部列 | 輸入表選擇列名類型。 |
lifecycle | 否 | 無 | 指定輸出表的生命週期。 |
coreNum | 否 | 預設自動計算 | 計算的核心數,取值範圍為正整數,取值範圍[1, 9999]。 |
memSizePerCore | 否 | 預設自動計算 | 每個核心的記憶體,取值範圍為1 MB~65536 MB。 |