パーセンタイルは、データテーブルの列のデータのパーセンタイルを計算するために統計で使用される尺度です。 データのセットが最小から最大まで順序付けられ、100のグループに分割される場合、パーセンタイルは、データの特定のパーセンテージがそれを下回る値を示します。
背景情報
システムは、BIGINT、DOUBLE、またはDATETIMEタイプのデータのパーセンタイルのみを計算できます。
パーセンタイルが計算されると、空の列はスキップされます。 すべての列が空の場合、エラーが返されます。
colNameパラメーターでは、複数のデータ列を指定できます。
コンポーネントの設定
次のいずれかの方法を使用して、Percentileコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Percentileコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
パラメーター設定 | 入力列 | [列の選択] をクリックして入力列を選択します。 |
チューニング | コア数 | コアの数。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name Percentile
-project algo_public
-DinputTableName=maple_test_percentile_3col_input
-DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;
パラメーター | 説明 | 必須 |
inputTableName | 入力テーブルの名前。 | 可 |
outputTableName | 出力テーブルの名前。 | 可 |
colName | 計算する列の名前。 デフォルトでは、すべての列が選択されています。 説明 複数の列の名前はコンマ (,) で区切ります。 | 不可 |
inputPartitions | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。
| 不可 |
predictInputTableName | 予測テーブルの名前。 このパラメーターを設定すると、予測結果が生成されます。 | 不可 |
predictInputTablePartitions | 入力予測テーブル内のパーティション。 | 不可 |
predictSelectedColNames | 予測テーブルから選択された列の名前。 デフォルトでは、予測テーブルのすべての列が選択されます。 列名は、トレーニングテーブルの列名と同じである必要があります。 | 不可 |
predictSelectedOriginalColNames | データを保持する列の名前。 デフォルトでは、すべての列が選択されています。 複数の列の名前はコンマ (,) で区切ります。 | 不可 |
predictOutputTableName | 出力予測テーブルの名前。 このパラメーターは、predictInputTableNameパラメーターとともに使用されます。 | 不可 |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。 説明 値は正の整数でなければなりません。 | 不可 |
coreNum | コアの数。 有効な値: [1,9999] 。 このパラメーターはmemSizePerCoreパラメーターと共に使用されます。 説明 値は正の整数でなければなりません。 | 不可 |
memSizePerCore | 各コアのメモリサイズ。 単位:MB。 有効値: [1024,64 × 1024] 。 説明 値は正の整数でなければなりません。 | 不可 |
Example
入力テーブル
col0: ダブル (1000行)
col1:bigint (100行)
col2:bigint (300行)
962
88
10月15日火曜日00:26:40 CST 1974
218
99
1月4日木曜日20:53:20 CST 1973
565
44
土3月09日02:40:00 CST 1974
314
68
8月11日月曜日22:40:00 CST 1975
583
13
8月23日土曜日12:26:40 CST 1975
615
87
5月25日火曜日14:13:20 CST 1971
70
53
3月23日金曜日09:20:00 CST 1979
929
63
7月3日月曜日16:26:40 CST 1972
249
48
3月15日木曜日07:33:20 CST 1973
428
62
3月17日水曜日03:33:20 CST 1971
119
1
6月26日木曜日15:33:20 CST 1975
756
27
1月30日月曜日17:20:00 CST 1978
490
75
12月11日水曜日21:20:00 CST 1974
957
12
7月5日日曜日12:26:40 CST 1970
80
22
10月4日水曜日06:40:00 CST 1972
681
57
11月3日水曜日15:06:40 CST 1971
13
95
9月12日土曜日23:06:40 CST 1970
PAIコマンド
PAI -name Percentile -project algo_public -DinputTableName=maple_test_percentile_3col_input -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;
出力テーブル
quantile:bigint
col0: ダブル
col1:bigint
col2:datetime
0
0.0
0
1月1日木曜日08:00:00 CST 1970
1
9.0
0
1月24日土曜日11:33:20 CST 1970
2
19.0
1
2月28日土曜日04:53:20 CST 1970
3
29.0
2
4月3日金曜日22:13:20 CST 1970
4
39.0
3
5月8日金曜日15:33:20 CST 1970
5
49.0
4
6月12日金曜日08:53:20 CST 1970
6
59.0
5
7月17日金曜日02:13:20 CST 1970
7
69.0
6
8月20日木曜日19:33:20 CST 1970
8
79.0
7
9月24日木曜日12:53:20 CST 1970
9
89.0
8
10月29日木曜日06:13:20 CST 1970
10
99.0
9
12月2日水曜日23:33:20 CST 1970
11
109.0
10
1月6日水曜日16:53:20 CST 1971
12
119.0
11
2月10日水曜日10:13:20 CST 1971
13
129.0
12
3月17日水曜日03:33:20 CST 1971
14
139.0
13
4月20日火曜日20:53:20 CST 1971
有効期限の 15
149.0
14
5月25日火曜日14:13:20 CST 1971
16
159.0
有効期限の 15
6月29日火曜日07:33:20 CST 1971
...
...
...
...
84
839.0
83
12月15日木曜日10:13:20 CST 1977
85
849.0
84
1月19日木曜日03:33:20 CST 1978
86
859.0
85
2月22日水曜日20:53:20 CST 1978
87
869.0
86
3月29日水曜日14:13:20 CST 1978
88
879.0
87
5月3日水曜日07:33:20 CST 1978
89
889.0
88
6月7日水曜日00:53:20 CST 1978
90
899.0
89
7月11日火曜日18:13:20 CST 1978
91
909.0
90
8月15日火曜日11:33:20 CST 1978
92
919.0
91
9月19日火曜日04:53:20 CST 1978
93
929.0
92
10月23日月曜日22:13:20 CST 1978
94
939.0
93
11月27日月曜日15:33:20 CST 1978
95
949.0
94
1月1日月曜日08:53:20 CST 1979
96
959.0
95
月曜日2月5日02:13:20 CST 1979
97
969.0
96
3月11日日曜日19:33:20 CST 1979
98
979.0
97
4月15日日曜日12:53:20 CST 1979
99
989.0
98
5月20日日曜日06:13:20 CST 1979
100
999.0
99
6月23日土曜日23:33:20 CST 1979