このトピックでは、Machine Learning Designerが提供するBox Plotコンポーネントについて説明します。
ボックスプロットチャートは、データのセットの分布を示しています。 生データの分布特徴を示します。 また、複数のデータセット間の分布特徴を比較するために使用することもできる。
制限事項
このコンポーネントの可視化されたレポートは、Machine Learning Studioでのみ使用できます。
コンポーネントの設定
次のいずれかの方法を使用してコンポーネントを設定できます。
方法1: Machine Learning Platform for AIコンソールの使用
Machine Learning Designerのパイプライン設定ページでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | 継続的な機能 | 連続フィーチャを表す列。The column to representing the continuous feature. |
列挙機能 | 列挙機能を表す列。The column to represent the enumeration feature. 説明 Machine Learning Studioでは1つのフィールドのみを選択できますが、Machine Learning Designerでは複数のフィールドを選択できます。 | |
階層化サンプル | 採用された階層化サンプルの数。 |
方法2: Machine Learning Platform for AI (PAI) コマンドの使用
PAIコマンドを使用してコンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを実行できます。 詳細については、「SQLスクリプト」をご参照ください。 PAIコマンドのパラメーターを次の表に示します。
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";
パラメーター | 必須 | 説明 | デフォルト値 |
inputTable | 可 | 入力テーブルの名前。 | N/A |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | N/A |
outputTable | 可 | ボックスプロットチャートとサンプルを格納する出力テーブルの名前。 | N/A |
continueCols | 可 | 連続フィーチャを表す列。The column to representing the continuous feature. | N/A |
categoryCol | 可 | 列挙機能を表す列。The column to represent the enumeration feature. | N/A |
sampleSize | 不可 | 各フィーチャの外乱条件が描画されるサンプルの数。 | 1000 |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 単位:日 | 28 |
coreNum | 不可 | コンピューティングで使用されるコアの数。 このパラメーターの値は正の整数でなければなりません。 | 自動割り当て |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 | 自動割り当て |
例
入力データ
create table boxplot as select age, y from bank_data limit 100;
年齢
y
50
0
53
0
28
1
39
0
55
1
有効期限の 30
0
37
0
39
0
36
1
27
0
34
0
41
0
55
1
33
0
26
0
52
0
35
1
27
1
28
0
26
0
41
0
35
0
40
0
32
0
41
0
34
0
49
0
37
0
35
0
38
0
47
0
46
0
27
0
29
1
32
0
36
0
29
0
47
0
44
0
54
0
36
0
42
0
44
0
72
1
48
0
36
0
35
0
43
0
56
0
42
0
31
0
32
0
33
0
31
0
39
0
有効期限の 30
1
24
0
24
0
38
0
26
0
41
0
34
0
有効期限の 30
0
37
0
68
0
31
0
48
0
33
0
59
0
44
0
28
0
50
0
33
0
45
0
40
0
45
0
43
0
54
0
53
0
35
0
有効期限の 30
0
25
0
35
0
54
1
有効期限の 30
0
38
0
35
0
47
0
32
0
27
0
40
1
31
0
42
0
40
0
31
0
57
0
38
1
39
0
37
0
44
0
パラメータ設定
age列を連続フィーチャ列として指定し、y列を列挙フィーチャ列として指定します。 他のパラメーターのデフォルト値を保持します。
Output
アウトプットの説明
[ボックスプロット] を右クリックし、
を選択して出力を表示します。 パラメーター:percent_points: 計算されたパーセンタイルを示します。
percent_count: 各区間のデータエントリ数を示します。 間隔は、百分位数によって分割される。
sample_list: サンプルは、サンプリングレートに基づいて各階層から選択されます。 サンプリングレートは、以下の式を用いて計算される。サンプリングレート=層化されたサンプルの数 /データエントリの総数。 サンプリングレートが低すぎて、各階層内のサンプル数にサンプリングレートを乗じた値が10未満である場合、新しいサンプリングレートが再計算される。
次の図は、ボックスプロットグラフを示しています。
次の図は、外乱ポイントの分布を示しています。