すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:テーブル全体の統計

最終更新日:Jul 22, 2024

テーブル全体の統計コンポーネントは、テーブル内のデータまたは選択した列のみの統計を収集するために使用されます。

コンポーネントの設定

次のいずれかの方法を使用して、テーブル全体の統計コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Whole Table Statisticsコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールドの設定

入力列 (デフォルトですべての列)

[列の選択] をクリックして入力列を選択します。 デフォルトでは、すべての列が選択されています。

チューニング

コア

コアの数。

メモリサイズ

各コアのメモリサイズ。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

パラメーター

説明

必須

inputTableName

入力テーブルの名前。

outputTableName

出力テーブルの名前。

inputTablePartitions

入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。

不可

selectColNames

統計用に選択されている列の名前。

不可

ライフサイクルの設定 (Set lifecycle)

出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。

説明

値は正の整数でなければなりません。

不可

coreNum

コアの数。

説明

値は正の整数でなければなりません。

不可

memSizePerCore

各コアのメモリサイズ。 単位:MB。 有効値: [1024,64x1024] 。

説明

値は正の整数でなければなりません。

不可

Output format

次の表に、出力テーブルのすべての列を示します。

説明

colname

列の名前。

datatype

データ型。

totalcount

総数。

集計

NULL以外の値の数。

missingcount

NULL値の数。

nancount

NaN値の数。

positiveinfinitycount

正の無限値の数。

negativeinfinitycount

負の無限値の数。

min

最小値。

max

最大値。

平均

平均値。

variance

分散。

standarddeviation

標準偏差。

standarderror

標準エラー。

skewness

歪。

kurtosis

尖度。

モーメント2

2番目の瞬間。

モーメント3

3番目の瞬間。

モーメント4

4番目の瞬間。

centralmoment2

2番目の中心的な瞬間。

centralmoment3

3番目の中心的な瞬間。

centralmoment4

4番目の中心的な瞬間。

sum

合計。

sum2

二乗の合計。

sum3

キューブの合計。

sum4

4乗の合計。

例:

  • 入力データ

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  • PAIコマンド

    PAI -name stat_summary
    -project algo_public
    -DinputTableName=summary_test_input
    -DoutputTableName=summary_test_input_out
    -DselectColNames=col1,col2,col3
    -Dlifecycle=1;
  • 出力結果

        | colname    | datatype   | totalcount | count      | missingcount | nancount   | positiveinfinitycount | negativeinfinitycount | min        | max        | mean       | variance   | standarddeviation | standarderror | skewness   | kurtosis   | moment2    | moment3    | moment4    | centralmoment2 | centralmoment3 | centralmoment4 | sum        | sum2       | sum3       | sum4       |
        | col1       | string     | 2          | 2          | 0            | 0          | 0                     | 0                     | NULL       | NULL       | NULL       | NULL       | NULL              | NULL          | NULL       | NULL       | NULL       | NULL       | NULL       | NULL           | NULL           | NULL           | NULL       | NULL       | NULL       | NULL       |
        | col2       | bigint     | 2          | 2          | 0            | 0          | 0                     | 0                     | 1          | 2          | 1.5        | 0.5        | 0.7071067811865476 | 0.5           | 0          | -2         | 2.5        | 4.5        | 8.5        | 0.25           | 0              | 0.0625         | 3          | 5          | 9          | 17         |
        | col3       | double     | 2          | 2          | 0            | 0          | 0                     | 0                     | 0.001      | 100.01     | 50.0055    | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011    | 10002.000101 | 1000300.030001001 | 100040006.0004 |