すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:パーセンタイル

最終更新日:Jul 22, 2024

パーセンタイルは、データテーブルの列のデータのパーセンタイルを計算するために統計で使用される尺度です。 データのセットが最小から最大まで順序付けられ、100のグループに分割される場合、パーセンタイルは、データの特定のパーセンテージがそれを下回る値を示します。

背景情報

  • システムは、BIGINT、DOUBLE、またはDATETIMEタイプのデータのパーセンタイルのみを計算できます。

  • パーセンタイルが計算されると、空の列はスキップされます。 すべての列が空の場合、エラーが返されます。

  • colNameパラメーターでは、複数のデータ列を指定できます。

コンポーネントの設定

次のいずれかの方法を使用して、Percentileコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Percentileコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

パラメーター設定

入力列

[列の選択] をクリックして入力列を選択します。

チューニング

コア数

コアの数。

コアあたりのメモリサイズ

各コアのメモリサイズ。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name Percentile
     -project algo_public
     -DinputTableName=maple_test_percentile_3col_input
     -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;

パラメーター

説明

必須

inputTableName

入力テーブルの名前。

outputTableName

出力テーブルの名前。

colName

計算する列の名前。 デフォルトでは、すべての列が選択されています。

説明

複数の列の名前はコンマ (,) で区切ります。

不可

inputPartitions

入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。

  • 1つのパーティションをpartition_name=valueの形式で指定します。

  • name1=value1,name2=value2の形式で複数のパーティションを指定します。

    説明

    複数のパーティションはコンマ (,) で区切ります。

  • マルチレベルパーティションをname1=value1/name2=value2の形式で指定します。

不可

predictInputTableName

予測テーブルの名前。 このパラメーターを設定すると、予測結果が生成されます。

不可

predictInputTablePartitions

入力予測テーブル内のパーティション。

不可

predictSelectedColNames

予測テーブルから選択された列の名前。 デフォルトでは、予測テーブルのすべての列が選択されます。 列名は、トレーニングテーブルの列名と同じである必要があります。

不可

predictSelectedOriginalColNames

データを保持する列の名前。 デフォルトでは、すべての列が選択されています。 複数の列の名前はコンマ (,) で区切ります。

不可

predictOutputTableName

出力予測テーブルの名前。 このパラメーターは、predictInputTableNameパラメーターとともに使用されます。

不可

ライフサイクルの設定 (Set lifecycle)

出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。

説明

値は正の整数でなければなりません。

不可

coreNum

コアの数。 有効な値: [1,9999] 。 このパラメーターはmemSizePerCoreパラメーターと共に使用されます。

説明

値は正の整数でなければなりません。

不可

memSizePerCore

各コアのメモリサイズ。 単位:MB。 有効値: [1024,64 × 1024] 。

説明

値は正の整数でなければなりません。

不可

Example

  • 入力テーブル

    col0: ダブル (1000行)

    col1:bigint (100行)

    col2:bigint (300行)

    962

    88

    10月15日火曜日00:26:40 CST 1974

    218

    99

    1月4日木曜日20:53:20 CST 1973

    565

    44

    土3月09日02:40:00 CST 1974

    314

    68

    8月11日月曜日22:40:00 CST 1975

    583

    13

    8月23日土曜日12:26:40 CST 1975

    615

    87

    5月25日火曜日14:13:20 CST 1971

    70

    53

    3月23日金曜日09:20:00 CST 1979

    929

    63

    7月3日月曜日16:26:40 CST 1972

    249

    48

    3月15日木曜日07:33:20 CST 1973

    428

    62

    3月17日水曜日03:33:20 CST 1971

    119

    1

    6月26日木曜日15:33:20 CST 1975

    756

    27

    1月30日月曜日17:20:00 CST 1978

    490

    75

    12月11日水曜日21:20:00 CST 1974

    957

    12

    7月5日日曜日12:26:40 CST 1970

    80

    22

    10月4日水曜日06:40:00 CST 1972

    681

    57

    11月3日水曜日15:06:40 CST 1971

    13

    95

    9月12日土曜日23:06:40 CST 1970

  • PAIコマンド

     PAI -name Percentile
         -project algo_public
         -DinputTableName=maple_test_percentile_3col_input
         -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;
  • 出力テーブル

    quantile:bigint

    col0: ダブル

    col1:bigint

    col2:datetime

    0

    0.0

    0

    1月1日木曜日08:00:00 CST 1970

    1

    9.0

    0

    1月24日土曜日11:33:20 CST 1970

    2

    19.0

    1

    2月28日土曜日04:53:20 CST 1970

    3

    29.0

    2

    4月3日金曜日22:13:20 CST 1970

    4

    39.0

    3

    5月8日金曜日15:33:20 CST 1970

    5

    49.0

    4

    6月12日金曜日08:53:20 CST 1970

    6

    59.0

    5

    7月17日金曜日02:13:20 CST 1970

    7

    69.0

    6

    8月20日木曜日19:33:20 CST 1970

    8

    79.0

    7

    9月24日木曜日12:53:20 CST 1970

    9

    89.0

    8

    10月29日木曜日06:13:20 CST 1970

    10

    99.0

    9

    12月2日水曜日23:33:20 CST 1970

    11

    109.0

    10

    1月6日水曜日16:53:20 CST 1971

    12

    119.0

    11

    2月10日水曜日10:13:20 CST 1971

    13

    129.0

    12

    3月17日水曜日03:33:20 CST 1971

    14

    139.0

    13

    4月20日火曜日20:53:20 CST 1971

    有効期限の 15

    149.0

    14

    5月25日火曜日14:13:20 CST 1971

    16

    159.0

    有効期限の 15

    6月29日火曜日07:33:20 CST 1971

    ...

    ...

    ...

    ...

    84

    839.0

    83

    12月15日木曜日10:13:20 CST 1977

    85

    849.0

    84

    1月19日木曜日03:33:20 CST 1978

    86

    859.0

    85

    2月22日水曜日20:53:20 CST 1978

    87

    869.0

    86

    3月29日水曜日14:13:20 CST 1978

    88

    879.0

    87

    5月3日水曜日07:33:20 CST 1978

    89

    889.0

    88

    6月7日水曜日00:53:20 CST 1978

    90

    899.0

    89

    7月11日火曜日18:13:20 CST 1978

    91

    909.0

    90

    8月15日火曜日11:33:20 CST 1978

    92

    919.0

    91

    9月19日火曜日04:53:20 CST 1978

    93

    929.0

    92

    10月23日月曜日22:13:20 CST 1978

    94

    939.0

    93

    11月27日月曜日15:33:20 CST 1978

    95

    949.0

    94

    1月1日月曜日08:53:20 CST 1979

    96

    959.0

    95

    月曜日2月5日02:13:20 CST 1979

    97

    969.0

    96

    3月11日日曜日19:33:20 CST 1979

    98

    979.0

    97

    4月15日日曜日12:53:20 CST 1979

    99

    989.0

    98

    5月20日日曜日06:13:20 CST 1979

    100

    999.0

    99

    6月23日土曜日23:33:20 CST 1979