本文為您介紹Designer提供的盒狀圖。
盒鬚圖是一種用作顯示一組資料分散情況的統計圖。它主要用於反映未經處理資料分布的特徵,還可以進行多組資料分布特徵的比較。
使用限制
僅原PAI-Studio平台支援查看該組件的可視化報告。
配置組件
您可以使用以下任意一種方式,配置盒狀圖組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 選擇連續類型特徵 | 選擇連續類型的特徵。 |
選擇枚舉類型特徵 | 選擇枚舉類型的特徵。 說明 在Designer中僅支援選擇一個欄位;在Designer中支援選擇多個欄位。 | |
分層樣本採用數 | 分層樣本的採用數。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTable | 是 | 輸入表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 無 |
outputTable | 是 | 輸出表名,存放盒狀圖和採樣的樣本。 | 無 |
continueCols | 是 | 連續類型特徵列。 | 無 |
categoryCol | 是 | 枚舉類型特徵列。 | 無 |
sampleSize | 否 | 繪製每個特徵的擾動情況的樣本採樣數。 | 1000 |
lifecycle | 否 | 輸出表生命週期,單位為:天。 | 28 |
coreNum | 否 | 計算的核心數,取值範圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體,取值範圍為1 MB~65536 MB。 | 系統自動分配 |
樣本
輸入資料
create table boxplot as select age, y from bank_data limit 100;
age
y
50
0
53
0
28
1
39
0
55
1
30
0
37
0
39
0
36
1
27
0
34
0
41
0
55
1
33
0
26
0
52
0
35
1
27
1
28
0
26
0
41
0
35
0
40
0
32
0
41
0
34
0
49
0
37
0
35
0
38
0
47
0
46
0
27
0
29
1
32
0
36
0
29
0
47
0
44
0
54
0
36
0
42
0
44
0
72
1
48
0
36
0
35
0
43
0
56
0
42
0
31
0
32
0
33
0
31
0
39
0
30
1
24
0
24
0
38
0
26
0
41
0
34
0
30
0
37
0
68
0
31
0
48
0
33
0
59
0
44
0
28
0
50
0
33
0
45
0
40
0
45
0
43
0
54
0
53
0
35
0
30
0
25
0
35
0
54
1
30
0
38
0
35
0
47
0
32
0
27
0
40
1
31
0
42
0
40
0
31
0
57
0
38
1
39
0
37
0
44
0
參數配置
選擇age為連續類型特徵,y為枚舉類特徵,其他保持預設值。
運行效果
輸出說明
按右鍵盒狀圖,選擇
,來查看盒狀圖的輸出結果。其中:percent_points:表示計算的百分位元。
percent_count:表示按百分位元劃分區間後,各個區間內的資料條數。
sample_list:首先使用分層樣本採用數 ÷ 資料總數計算得出採樣率,根據採樣率在每層樣本中進行採樣。如果採樣率太低,導致每層裡的樣本數 × 採樣率小於10,則會重新計算新的採樣率。
盒狀圖分布情況如下圖所示。
擾動點圖分布情況如下圖所示。