テーブル全体の統計コンポーネントは、テーブル内のデータまたは選択した列のみの統計を収集するために使用されます。
コンポーネントの設定
次のいずれかの方法を使用して、テーブル全体の統計コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Whole Table Statisticsコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | 入力列 (デフォルトですべての列) | [列の選択] をクリックして入力列を選択します。 デフォルトでは、すべての列が選択されています。 |
チューニング | コア | コアの数。 |
メモリサイズ | 各コアのメモリサイズ。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1
パラメーター | 説明 | 必須 |
inputTableName | 入力テーブルの名前。 | 可 |
outputTableName | 出力テーブルの名前。 | 可 |
inputTablePartitions | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。 | 不可 |
selectColNames | 統計用に選択されている列の名前。 | 不可 |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。 説明 値は正の整数でなければなりません。 | 不可 |
coreNum | コアの数。 説明 値は正の整数でなければなりません。 | 不可 |
memSizePerCore | 各コアのメモリサイズ。 単位:MB。 有効値: [1024,64x1024] 。 説明 値は正の整数でなければなりません。 | 不可 |
Output format
次の表に、出力テーブルのすべての列を示します。
列 | 説明 |
colname | 列の名前。 |
datatype | データ型。 |
totalcount | 総数。 |
集計 | NULL以外の値の数。 |
missingcount | NULL値の数。 |
nancount | NaN値の数。 |
positiveinfinitycount | 正の無限値の数。 |
negativeinfinitycount | 負の無限値の数。 |
min | 最小値。 |
max | 最大値。 |
平均 | 平均値。 |
variance | 分散。 |
standarddeviation | 標準偏差。 |
standarderror | 標準エラー。 |
skewness | 歪。 |
kurtosis | 尖度。 |
モーメント2 | 2番目の瞬間。 |
モーメント3 | 3番目の瞬間。 |
モーメント4 | 4番目の瞬間。 |
centralmoment2 | 2番目の中心的な瞬間。 |
centralmoment3 | 3番目の中心的な瞬間。 |
centralmoment4 | 4番目の中心的な瞬間。 |
sum | 合計。 |
sum2 | 二乗の合計。 |
sum3 | キューブの合計。 |
sum4 | 4乗の合計。 |
例:
入力データ
drop table if exists summary_test_input; create table summary_test_input as select * from ( select 'a' as col1, 1 as col2, 0.001 as col3 union all select 'b' as col1, 2 as col2, 100.01 as col3 ) tmp;
PAIコマンド
PAI -name stat_summary -project algo_public -DinputTableName=summary_test_input -DoutputTableName=summary_test_input_out -DselectColNames=col1,col2,col3 -Dlifecycle=1;
出力結果
| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min | max | mean | variance | standarddeviation | standarderror | skewness | kurtosis | moment2 | moment3 | moment4 | centralmoment2 | centralmoment3 | centralmoment4 | sum | sum2 | sum3 | sum4 | | col1 | string | 2 | 2 | 0 | 0 | 0 | 0 | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | NULL | | col2 | bigint | 2 | 2 | 0 | 0 | 0 | 0 | 1 | 2 | 1.5 | 0.5 | 0.7071067811865476 | 0.5 | 0 | -2 | 2.5 | 4.5 | 8.5 | 0.25 | 0 | 0.0625 | 3 | 5 | 9 | 17 | | col3 | double | 2 | 2 | 0 | 0 | 0 | 0 | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025 | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |