全部產品
Search
文件中心

Platform For AI:全表統計

更新時間:Dec 26, 2024

全表統計是指對整個資料表進行基本統計分析的方法。它計算並摘要資料集的各項統計指標,如均值、中位元、標準差、最小值、最大值、缺失值數量等。該演算法用於快速瞭解資料的整體特徵和品質,為後續的資料清洗、特徵工程和模型構建提供基礎資訊。

組件配置

您可以使用以下任意一種方式,配置全表統計組件參數。

方式一:可視化方式

在Designer工作流程頁面添加全表統計組件,並在介面右側配置相關參數:

參數類型

參數

描述

參數設定

輸入列

指定哪些列要包含在統計分析中。預設情況下,會選擇資料集中的所有列進行統計計算。

執行調優

核心數目

節點個數。

記憶體數

單個節點記憶體大小。

方式二:PAI命令方式

使用PAI命令配置全表統計組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

參數名稱

是否必選

參數描述

inputTableName

輸入表名。

outputTableName

輸出表名。

inputTablePartitions

輸入表的分區,系統預設選擇所有分區。

selectColNames

需要統計的列名。

lifecycle

輸出結果表的生命週期,系統預設不設定生命週期。

coreNum

節點數量。

memSizePerCore

每個節點的記憶體數,取值範圍[1024, 64*1024],單位MB。

使用樣本

  1. 添加SQL指令碼組件,去勾選使用Script模式是否由系統添加Create Table語句,並在SQL指令碼中輸入以下SQL語句。

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  2. 添加SQL指令碼組件,去勾選使用Script模式是否由系統添加Create Table語句,在SQL指令碼中輸入以下PAI命令,並將步驟 1和步驟 2的組件進行連線。

    drop table if exists ${o1};
    PAI -name stat_summary
        -project algo_public
        -DinputTableName=summary_test_input
        -DoutputTableName=${o1}
        -DselectColNames=col1,col2,col3
        -Dlifecycle=1;
  3. 單擊左上方image,運行工作流程。

  4. 待運行結束,按右鍵步驟 2的組件,選擇查看資料 > SQL指令碼的輸出,查看訓練結果。

    | colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min   | max    | mean    | variance          | standarddeviation  | standarderror     | skewness              | kurtosis           | moment2           | moment3           | moment4           | centralmoment2 | centralmoment3       | centralmoment4    | sum     | sum2         | sum3              | sum4           |
    | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- |
    | col1    | string   | 2          | 2     | 0            | 0        | 0                     | 0                     |       |        |         |                   |                    |                   |                       |                    |                   |                   |                   |                |                      |                   |         |              |                   |                |
    | col2    | bigint   | 2          | 2     | 0            | 0        | 0                     | 0                     | 1     | 2      | 1.5     | 0.5               | 0.7071067811865476 | 0.5               | 0                     | -2                 | 2.5               | 4.5               | 8.5               | 0.25           | 0                    | 0.0625            | 3       | 5            | 9                 | 17             |
    | col3    | double   | 2          | 2     | 0            | 0        | 0                     | 0                     | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544  | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |

    列名

    描述

    colname

    列名

    datatype

    類型

    totalcount

    總數

    count

    非NULL數量

    missingcount

    NULL數量

    nancount

    NAN數量

    positiveinfinitycount

    正無窮數量

    negativeinfinitycount

    負無窮數量

    min

    最小值

    max

    最大值

    mean

    平均值

    variance

    方差

    standarddeviation

    標準差

    standarderror

    標準誤差

    skewness

    偏度

    kurtosis

    峰度

    moment2

    二階矩

    moment3

    三階矩

    moment4

    四階矩

    centralmoment2

    二階中心距

    centralmoment3

    三階中心距

    centralmoment4

    四階中心距

    sum

    總和

    sum2

    平方和

    sum3

    立方和

    sum4

    四次方和