すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ボックスプロット

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designerが提供するBox Plotコンポーネントについて説明します。

ボックスプロットチャートは、データのセットの分布を示しています。 生データの分布特徴を示します。 また、複数のデータセット間の分布特徴を比較するために使用することもできる。

制限事項

このコンポーネントの可視化されたレポートは、Machine Learning Studioでのみ使用できます。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Machine Learning Platform for AIコンソールの使用

Machine Learning Designerのパイプライン設定ページでコンポーネントパラメーターを設定します。

タブ

パラメーター

説明

フィールド設定

継続的な機能

連続フィーチャを表す列。The column to representing the continuous feature.

列挙機能

列挙機能を表す列。The column to represent the enumeration feature.

説明

Machine Learning Studioでは1つのフィールドのみを選択できますが、Machine Learning Designerでは複数のフィールドを選択できます。

階層化サンプル

採用された階層化サンプルの数。

方法2: Machine Learning Platform for AI (PAI) コマンドの使用

PAIコマンドを使用してコンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。 PAIコマンドのパラメーターを次の表に示します。

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
     -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";

パラメーター

必須

説明

デフォルト値

inputTable

入力テーブルの名前。

N/A

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。

N/A

outputTable

ボックスプロットチャートとサンプルを格納する出力テーブルの名前。

N/A

continueCols

連続フィーチャを表す列。The column to representing the continuous feature.

N/A

categoryCol

列挙機能を表す列。The column to represent the enumeration feature.

N/A

sampleSize

不可

各フィーチャの外乱条件が描画されるサンプルの数。

1000

ライフサイクル

不可

出力テーブルのライフサイクル。 単位:日

28

coreNum

不可

コンピューティングで使用されるコアの数。 このパラメーターの値は正の整数でなければなりません。

自動割り当て

memSizePerCore

不可

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

自動割り当て

  • 入力データ

    create table boxplot as select age, y from bank_data limit 100;

    年齢

    y

    50

    0

    53

    0

    28

    1

    39

    0

    55

    1

    有効期限の 30

    0

    37

    0

    39

    0

    36

    1

    27

    0

    34

    0

    41

    0

    55

    1

    33

    0

    26

    0

    52

    0

    35

    1

    27

    1

    28

    0

    26

    0

    41

    0

    35

    0

    40

    0

    32

    0

    41

    0

    34

    0

    49

    0

    37

    0

    35

    0

    38

    0

    47

    0

    46

    0

    27

    0

    29

    1

    32

    0

    36

    0

    29

    0

    47

    0

    44

    0

    54

    0

    36

    0

    42

    0

    44

    0

    72

    1

    48

    0

    36

    0

    35

    0

    43

    0

    56

    0

    42

    0

    31

    0

    32

    0

    33

    0

    31

    0

    39

    0

    有効期限の 30

    1

    24

    0

    24

    0

    38

    0

    26

    0

    41

    0

    34

    0

    有効期限の 30

    0

    37

    0

    68

    0

    31

    0

    48

    0

    33

    0

    59

    0

    44

    0

    28

    0

    50

    0

    33

    0

    45

    0

    40

    0

    45

    0

    43

    0

    54

    0

    53

    0

    35

    0

    有効期限の 30

    0

    25

    0

    35

    0

    54

    1

    有効期限の 30

    0

    38

    0

    35

    0

    47

    0

    32

    0

    27

    0

    40

    1

    31

    0

    42

    0

    40

    0

    31

    0

    57

    0

    38

    1

    39

    0

    37

    0

    44

    0

  • パラメータ設定

    age列を連続フィーチャ列として指定し、y列を列挙フィーチャ列として指定します。 他のパラメーターのデフォルト値を保持します。

  • Output

    • アウトプットの説明

      [ボックスプロット] を右クリックし、[データの表示] > [出力ポート] を選択して出力を表示します。 パラメーター:

      • percent_points: 計算されたパーセンタイルを示します。

      • percent_count: 各区間のデータエントリ数を示します。 間隔は、百分位数によって分割される。

      • sample_list: サンプルは、サンプリングレートに基づいて各階層から選択されます。 サンプリングレートは、以下の式を用いて計算される。サンプリングレート=層化されたサンプルの数 /データエントリの総数。 サンプリングレートが低すぎて、各階層内のサンプル数にサンプリングレートを乗じた値が10未満である場合、新しいサンプリングレートが再計算される。

    • 次の図は、ボックスプロットグラフを示しています。 Box plot chart

    • 次の図は、外乱ポイントの分布を示しています。 Distribution of disturbance points