全表統計是指對整個資料表進行基本統計分析的方法。它計算並摘要資料集的各項統計指標,如均值、中位元、標準差、最小值、最大值、缺失值數量等。該演算法用於快速瞭解資料的整體特徵和品質,為後續的資料清洗、特徵工程和模型構建提供基礎資訊。
組件配置
您可以使用以下任意一種方式,配置全表統計組件參數。
方式一:可視化方式
在Designer工作流程頁面添加全表統計組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
參數設定 | 輸入列 | 指定哪些列要包含在統計分析中。預設情況下,會選擇資料集中的所有列進行統計計算。 |
執行調優 | 核心數目 | 節點個數。 |
記憶體數 | 單個節點記憶體大小。 |
方式二:PAI命令方式
使用PAI命令配置全表統計組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1
參數名稱 | 是否必選 | 參數描述 |
inputTableName | 是 | 輸入表名。 |
outputTableName | 是 | 輸出表名。 |
inputTablePartitions | 否 | 輸入表的分區,系統預設選擇所有分區。 |
selectColNames | 否 | 需要統計的列名。 |
lifecycle | 否 | 輸出結果表的生命週期,系統預設不設定生命週期。 |
coreNum | 否 | 節點數量。 |
memSizePerCore | 否 | 每個節點的記憶體數,取值範圍[1024, 64*1024],單位MB。 |
使用樣本
添加SQL指令碼組件,去勾選使用Script模式和是否由系統添加Create Table語句,並在SQL指令碼中輸入以下SQL語句。
drop table if exists summary_test_input; create table summary_test_input as select * from ( select 'a' as col1, 1 as col2, 0.001 as col3 union all select 'b' as col1, 2 as col2, 100.01 as col3 ) tmp;
添加SQL指令碼組件,去勾選使用Script模式和是否由系統添加Create Table語句,在SQL指令碼中輸入以下PAI命令,並將步驟 1和步驟 2的組件進行連線。
drop table if exists ${o1}; PAI -name stat_summary -project algo_public -DinputTableName=summary_test_input -DoutputTableName=${o1} -DselectColNames=col1,col2,col3 -Dlifecycle=1;
單擊左上方,運行工作流程。
待運行結束,按右鍵步驟 2的組件,選擇查看資料 > SQL指令碼的輸出,查看訓練結果。
| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min | max | mean | variance | standarddeviation | standarderror | skewness | kurtosis | moment2 | moment3 | moment4 | centralmoment2 | centralmoment3 | centralmoment4 | sum | sum2 | sum3 | sum4 | | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- | | col1 | string | 2 | 2 | 0 | 0 | 0 | 0 | | | | | | | | | | | | | | | | | | | | col2 | bigint | 2 | 2 | 0 | 0 | 0 | 0 | 1 | 2 | 1.5 | 0.5 | 0.7071067811865476 | 0.5 | 0 | -2 | 2.5 | 4.5 | 8.5 | 0.25 | 0 | 0.0625 | 3 | 5 | 9 | 17 | | col3 | double | 2 | 2 | 0 | 0 | 0 | 0 | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025 | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |
列名
描述
colname
列名
datatype
類型
totalcount
總數
count
非NULL數量
missingcount
NULL數量
nancount
NAN數量
positiveinfinitycount
正無窮數量
negativeinfinitycount
負無窮數量
min
最小值
max
最大值
mean
平均值
variance
方差
standarddeviation
標準差
standarderror
標準誤差
skewness
偏度
kurtosis
峰度
moment2
二階矩
moment3
三階矩
moment4
四階矩
centralmoment2
二階中心距
centralmoment3
三階中心距
centralmoment4
四階中心距
sum
總和
sum2
平方和
sum3
立方和
sum4
四次方和