相關係數矩陣(Correlation Coefficient Matrix)是用於量化並展示多個變數之間兩兩相關性的工具。矩陣中的每個元素表示對應變數對之間的相關係數,通常採用皮爾遜相關係數來衡量線性關係。該矩陣在特徵選取、資料分析和模型構建中具有重要作用,協助識別變數間的線性依賴性和多重共線性問題。
配置組件
方式一:可視化方式
在Designer工作流程頁面添加相關係數矩陣組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
欄位設定 | 預設全選 | 指定要包含在矩陣計算中的特徵列。預設情況下,該參數會選擇所有欄位進行相關性分析。 |
執行調優 | 核心數 | 與記憶體數同時設定後,該參數才生效。 |
記憶體數 | 與核心數同時設定後,該參數才生效。 |
方式二:PAI命令方式
使用PAI命令配置相關係數矩陣組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name corrcoef
-project algo_public
-DinputTableName=maple_test_corrcoef_basic12x10_input
-DoutputTableName=maple_test_corrcoef_basic12x10_output
-DcoreNum=1
-DmemSizePerCore=110;
參數名稱 | 是否必選 | 預設值 | 描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 無 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。 |
outputTableName | 是 | 無 | 輸出表名稱列表。 |
selectedColNames | 否 | 預設選擇全部列 | 輸入表選擇列名類型。 |
lifecycle | 否 | 無 | 指定輸出表的生命週期。 |
coreNum | 否 | 預設自動計算 | 與參數memSizePerCore配對使用,正整數。範圍為[1, 9999]。 |
memSizePerCore | 否 | 預設自動計算 | 單個節點記憶體大小,單位MB。正整數,範圍為[1024, 64*1024]。 |
使用樣本
產生如下測試資料。
col0:double
col1:bigint
col2:double
col3:bigint
col4:double
col5:bigint
col6:double
col7:bigint
col8:double
col9:double
19
95
33
52
115
43
32
98
76
40
114
26
101
69
56
59
116
23
109
105
103
89
7
9
65
118
73
50
55
81
79
20
63
71
5
24
77
31
21
75
87
16
66
47
25
14
42
99
108
57
11
104
38
37
106
51
3
91
80
97
84
30
70
46
8
6
94
22
45
48
35
17
107
64
10
112
53
34
90
96
13
61
39
1
29
117
112
2
82
28
62
4
102
88
100
36
67
54
12
85
49
27
44
93
68
110
60
72
86
58
92
119
0
113
41
15
74
83
18
111
執行如下PAI命令。
PAI -name corrcoef -project algo_public -DinputTableName=maple_test_corrcoef_basic12x10_input -DoutputTableName=maple_test_corrcoef_basic12x10_output -DcoreNum=1 -DmemSizePerCore=110;
查看輸出結果,如下表所示。
columnsnames
col0
col1
col2
col3
col4
col5
col6
col7
col8
col9
col0
1
-0.2115657251820724
0.0598306259706561
0.2599903570684693
-0.3483249188225586
-0.28716254396809926
0.47880162127435116
-0.13646519484213326
-0.19500158764680092
0.3897390240949085
col1
-0.2115657251820724
1
-0.8444477377898585
-0.17507636221594533
0.40943384150571377
0.09135976026101403
-0.3018506374626574
0.40733726912808044
-0.11827739124590071
0.12433851389455183
col2
0.0598306259706561
-0.8444477377898585
1
0.18518346647293102
-0.20934839228057014
-0.1896417512389659
0.1799377498863213
-0.3858885676469948
0.20254569203773892
0.13476160753756655
col3
0.2599903570684693
-0.17507636221594533
0.18518346647293102
1
0.03988018649854009
-0.43737887418329147
-0.053818296425267184
0.2900856441586986
-0.3607547910075688
0.4912019074930449
col4
-0.3483249188225586
0.40943384150571377
-0.20934839228057014
0.03988018649854009
1
0.1465605209246875
-0.5016030364347955
0.5496024325711117
0.013743256115394122
0.07497231559184887
col5
-0.28716254396809926
0.09135976026101403
-0.1896417512389659
-0.43737887418329147
0.1465605209246875
1
0.16729809310873522
-0.29890655828796964
0.3618518101014617
-0.1713960957286885
col6
0.47880162127435116
-0.3018506374626574
0.1799377498863213
-0.053818296425267184
-0.5016030364347955
0.16729809310873522
1
-0.8165019880156462
-0.11173420918721436
-0.10363860378347944
col7
-0.13646519484213326
0.40733726912808044
-0.3858885676469948
0.2900856441586986
0.5496024325711117
-0.29890655828796964
-0.8165019880156462
1
0.07435907471544469
0.11711976051999162
col8
-0.19500158764680092
-0.11827739124590071
0.20254569203773892
-0.3607547910075688
0.013743256115394122
0.3618518101014617
-0.11173420918721436
0.07435907471544469
1
-0.18463012549540175
col9
0.3897390240949085
0.12433851389455183
0.13476160753756655
0.4912019074930449
0.07497231559184887
-0.1713960957286885
-0.10363860378347944
0.11711976051999162
-0.18463012549540175
1