長條圖(Histogram)又稱品質分布圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示資料分布的情況。 通常,橫軸表示資料類型,縱軸表示分布情況。
組件配置
您可以使用以下任意一種方式,配置長條圖組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 選擇欄位 | 選擇需要分析的欄位。支援double和bigint類型。 說明 最大不超過1024個欄位。 |
參數設定 | 區間個數 | 長條圖的區間個數。 |
執行調優 | 計算核心數 | 計算的核心數,取值範圍為正整數。 |
每個核記憶體數 | 每個核心的記憶體,取值範圍為1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name histogram
-project algo_public
-DinputTableName=maple_histogram_1to20_input
-DoutputTableName=maple_histogram_1to20_output
-DselectedColNames=col0,col1 -DintervalNum=20;
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 無 |
outputTableName | 是 | 輸出表名稱。 | 無 |
selectedColNames | 是 | 輸入表中用於訓練的列名,以逗號分隔,支援int和double類型。 說明 最大不超過1024列。 | 無 |
intervalNum | 否 | 長條圖區間個數。 | 100 |
lifecycle | 否 | 表的生命週期。 | 無 |
coreNum | 否 | 計算的核心數,取值範圍為正整數。取值範圍[1, 9999]。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體,取值範圍為1 MB~65536 MB。 | 系統自動分配 |
樣本
輸入說明
col0
col1
1
1.0
2
2.0
3
3.0
4
4.0
5
5.0
6
6.0
7
7.0
8
8.0
9
9.0
10
10.0
11
11.0
12
12.0
13
13.0
14
14.0
15
15.0
16
16.0
17
17.0
18
18.0
19
19.0
20
20.0
PAI命令
PAI -name histogram -project algo_public -DinputTableName=maple_histogram_1to20_input -DoutputTableName=maple_histogram_1to20_output -DselectedColNames=col0,col1 -DintervalNum=20;
輸出說明
colname
histogram
col0
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1
col1
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1