全表統計用於統計全表,或某些選中的列。
組件配置
您可以使用以下任意一種方式,配置全表統計組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
參數設定 | 輸入列 | 選擇輸入列的欄位,系統預設選擇全部列。 |
執行調優 | 核心數目 | 節點個數。 |
記憶體數 | 單個節點記憶體大小。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1
參數名稱 | 參數描述 | 是否必選 |
inputTableName | 輸入表名。 | 是 |
outputTableName | 輸出表名。 | 是 |
inputTablePartitions | 輸入表的分區,系統預設選擇所有分區。 | 否 |
selectColNames | 需要統計的列名。 | 否 |
lifecycle | 輸出結果表的生命週期,系統預設不設定生命週期。 說明 僅支援輸入正整數。 | 否 |
coreNum | 節點數量。 說明 僅支援輸入正整數。 | 否 |
memSizePerCore | 每個節點的記憶體數,取值範圍[1024, 64*1024],單位MB。 說明 僅支援輸入正整數。 | 否 |
輸出格式
輸出統計結果的全部欄位,如下表所示。
列名 | 描述 |
colname | 列名 |
datatype | 類型 |
totalcount | 總數 |
count | 非NULL數量 |
missingcount | NULL數量 |
nancount | NAN數量 |
positiveinfinitycount | 正無窮數量 |
negativeinfinitycount | 負無窮數量 |
min | 最小值 |
max | 最大值 |
mean | 平均值 |
variance | 方差 |
standarddeviation | 標準差 |
standarderror | 標準誤差 |
skewness | 偏度 |
kurtosis | 峰度 |
moment2 | 二階矩 |
moment3 | 三階矩 |
moment4 | 四階矩 |
centralmoment2 | 二階中心距 |
centralmoment3 | 三階中心距 |
centralmoment4 | 四階中心距 |
sum | 總和 |
sum2 | 平方和 |
sum3 | 立方和 |
sum4 | 四次方和 |
樣本
輸入資料
drop table if exists summary_test_input; create table summary_test_input as select * from ( select 'a' as col1, 1 as col2, 0.001 as col3 union all select 'b' as col1, 2 as col2, 100.01 as col3 ) tmp;
PAI命令
PAI -name stat_summary -project algo_public -DinputTableName=summary_test_input -DoutputTableName=summary_test_input_out -DselectColNames=col1,col2,col3 -Dlifecycle=1;
輸出結果
| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min | max | mean | variance | standarddeviation | standarderror | skewness | kurtosis | moment2 | moment3 | moment4 | centralmoment2 | centralmoment3 | centralmoment4 | sum | sum2 | sum3 | sum4 | | col1 | string | 2 | 2 | 0 | 0 | 0 | 0 | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | | col2 | bigint | 2 | 2 | 0 | 0 | 0 | 0 | 1 | 2 | 1.5 | 0.5 | 0.7071067811865476 | 0.5 | 0 | -2 | 2.5 | 4.5 | 8.5 | 0.25 | 0 | 0.0625 | 3 | 5 | 9 | 17 | | col3 | double | 2 | 2 | 0 | 0 | 0 | 0 | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025 | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |