皮爾森係數是一種線性相關係數,用於反映兩個變數線性相關程度的統計量。機器學習中,皮爾森係數用於計算輸入表或分區兩列(數值列)的Pearson相關係數,計算結果輸出至輸出表。
組件配置
您可以使用以下任意一種方式,配置皮爾森係數組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
IO/欄位設定 | 輸入列1 | 輸入計算相關係數列名。 |
輸入列2。 | 輸入計算相關係數列名。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
pai -name pearson
-project algo_public
-DinputTableName=wpbc
-Dcol1Name=f1
-Dcol2Name=f2
-DoutputTableName=wpbc_pear;
參數名稱 | 參數描述 | 是否必選 |
inputTableName | 輸入表的表名。 | 是 |
inputTablePartitions | 系統預設選擇所有分區。指定輸入表的分區:
| 否 |
col1Name | 輸入列1的列名。 | 是 |
col2Name | 輸入列2的列名。 | 是 |
outputTableName | 輸出結果表的表名。 | 是 |
lifecycle | 輸出表的生命週期。系統預設無生命週期。 說明 僅支援輸入正整數。 | 否 |
樣本
輸入表
create table pai_pearson_test_input as select * from ( select 1.0 as f0,0.11 as f1 union all select 2.0 as f0,0.12 as f1 union all select 3.0 as f0,0.13 as f1 union all select 5.0 as f0,0.15 as f1 union all select 8.0 as f0,0.18 as f1 )tmp;
PAI命令
pai -name pearson -project algo_public -DinputTableName=pai_pearson_test_input -Dcol1Name=f0 -Dcol2Name=f1 -DoutputTableName=pai_pearson_test_output;
輸出表
+------------+------------+------------+------------+-------------+-------------+---------------------+ | src_table | src_parts | col1_name | col2_name | count_total | count_valid | pearson_coefficient | +------------+------------+------------+------------+-------------+-------------+---------------------+ | sre_mpi_algo_dev.pai_pearson_test_input | | f0 | f1 | 5 | 5 | 0.9999999999999973 | +------------+------------+------------+------------+-------------+-------------+---------------------+