皮爾森係數是一種線性相關係數,反映兩個變數的線性相關程度。在機器學習中,皮爾森係數用於計算輸入表或分區兩列(數值列)的Pearson相關係數。
組件配置
您可以使用以下任意一種方式,配置皮爾森係數組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 輸入列1 | 輸入計算相關係數列名。 |
輸入列2 | 輸入計算相關係數列名。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
pai -name pearson
-project algo_public
-DinputTableName=wpbc
-Dcol1Name=f1
-Dcol2Name=f2
-DoutputTableName=wpbc_pear;參數名稱 | 參數描述 | 是否必選 |
inputTableName | 輸入表的表名。 | 是 |
inputTablePartitions | 系統預設選擇所有分區。指定輸入表的分區:
| 否 |
col1Name | 輸入列1的列名。 | 是 |
col2Name | 輸入列2的列名。 | 是 |
outputTableName | 輸出結果表的表名。 | 是 |
lifecycle | 輸出表的生命週期。系統預設無生命週期。 說明 僅支援輸入正整數。 | 否 |
樣本
輸入表
使用開發ODPS SQL任務建立表pai_pearson_test_input。命令如下:
create table pai_pearson_test_input as select * from ( select 1.0 as f0,0.11 as f1 union all select 2.0 as f0,0.12 as f1 union all select 3.0 as f0,0.13 as f1 union all select 5.0 as f0,0.15 as f1 union all select 8.0 as f0,0.18 as f1 )tmp;PAI命令
您可以使用SQL指令碼執行如下PAI命令,也可以使用開發ODPS SQL任務執行如下PAI命令。
pai -name pearson -project algo_public -DinputTableName=pai_pearson_test_input -Dcol1Name=f0 -Dcol2Name=f1 -DoutputTableName=pai_pearson_test_output;輸出表
+------------+------------+------------+------------+-------------+-------------+---------------------+ | src_table | src_parts | col1_name | col2_name | count_total | count_valid | pearson_coefficient | +------------+------------+------------+------------+-------------+-------------+---------------------+ | sre_mpi_algo_dev.pai_pearson_test_input | | f0 | f1 | 5 | 5 | 0.9999999999999973 | +------------+------------+------------+------------+-------------+-------------+---------------------+