全部產品
Search
文件中心

Platform For AI:全表統計

更新時間:Jul 13, 2024

全表統計用於統計全表,或某些選中的列。

組件配置

您可以使用以下任意一種方式,配置全表統計組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

參數設定

輸入列

選擇輸入列的欄位,系統預設選擇全部列。

執行調優

核心數目

節點個數。

記憶體數

單個節點記憶體大小。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

參數名稱

參數描述

是否必選

inputTableName

輸入表名。

outputTableName

輸出表名。

inputTablePartitions

輸入表的分區,系統預設選擇所有分區。

selectColNames

需要統計的列名。

lifecycle

輸出結果表的生命週期,系統預設不設定生命週期。

說明

僅支援輸入正整數。

coreNum

節點數量。

說明

僅支援輸入正整數。

memSizePerCore

每個節點的記憶體數,取值範圍[1024, 64*1024],單位MB。

說明

僅支援輸入正整數。

輸出格式

輸出統計結果的全部欄位,如下表所示。

列名

描述

colname

列名

datatype

類型

totalcount

總數

count

非NULL數量

missingcount

NULL數量

nancount

NAN數量

positiveinfinitycount

正無窮數量

negativeinfinitycount

負無窮數量

min

最小值

max

最大值

mean

平均值

variance

方差

standarddeviation

標準差

standarderror

標準誤差

skewness

偏度

kurtosis

峰度

moment2

二階矩

moment3

三階矩

moment4

四階矩

centralmoment2

二階中心距

centralmoment3

三階中心距

centralmoment4

四階中心距

sum

總和

sum2

平方和

sum3

立方和

sum4

四次方和

樣本

  • 輸入資料

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  • PAI命令

    PAI -name stat_summary
    -project algo_public
    -DinputTableName=summary_test_input
    -DoutputTableName=summary_test_input_out
    -DselectColNames=col1,col2,col3
    -Dlifecycle=1;
  • 輸出結果

        | colname    | datatype   | totalcount | count      | missingcount | nancount   | positiveinfinitycount | negativeinfinitycount | min        | max        | mean       | variance   | standarddeviation | standarderror | skewness   | kurtosis   | moment2    | moment3    | moment4    | centralmoment2 | centralmoment3 | centralmoment4 | sum        | sum2       | sum3       | sum4       |
        | col1       | string     | 2          | 2          | 0            | 0          | 0                     | 0                     | NULL       | NULL       | NULL       | NULL       | NULL              | NULL          | NULL       | NULL       | NULL       | NULL       | NULL       | NULL           | NULL           | NULL           | NULL       | NULL       | NULL       | NULL       |
        | col2       | bigint     | 2          | 2          | 0            | 0          | 0                     | 0                     | 1          | 2          | 1.5        | 0.5        | 0.7071067811865476 | 0.5           | 0          | -2         | 2.5        | 4.5        | 8.5        | 0.25           | 0              | 0.0625         | 3          | 5          | 9          | 17         |
        | col3       | double     | 2          | 2          | 0            | 0          | 0                     | 0                     | 0.001      | 100.01     | 50.0055    | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011    | 10002.000101 | 1000300.030001001 | 100040006.0004 |