ボックスプロット - Platform For AI - Alibaba Cloud ドキュメントセンター

このトピックでは、Machine Learning Designerが提供するBox Plotコンポーネントについて説明します。

ボックスプロットチャートは、データのセットの分布を示しています。生データの分布特徴を示します。また、複数のデータセット間の分布特徴を比較するために使用することもできる。

制限事項

このコンポーネントの可視化されたレポートは、Machine Learning Studioでのみ使用できます。

コンポーネントの設定

次のいずれかの方法を使用してコンポーネントを設定できます。

方法1: Machine Learning Platform for AIコンソールの使用

Machine Learning Designerのパイプライン設定ページでコンポーネントパラメーターを設定します。

タブ	パラメーター	説明
フィールド設定	継続的な機能	連続フィーチャを表す列。The column to representing the continuous feature.
	列挙機能	列挙機能を表す列。The column to represent the enumeration feature. 説明 Machine Learning Studioでは1つのフィールドのみを選択できますが、Machine Learning Designerでは複数のフィールドを選択できます。
	階層化サンプル	採用された階層化サンプルの数。

方法2: Machine Learning Platform for AI (PAI) コマンドの使用

PAIコマンドを使用してコンポーネントパラメーターを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを実行できます。詳細については、「SQLスクリプト」をご参照ください。 PAIコマンドのパラメーターを次の表に示します。

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
     -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";

パラメーター	必須	説明	デフォルト値
inputTable	可	入力テーブルの名前。	N/A
inputTablePartitions	不可	トレーニング用に入力テーブルから選択されたパーティション。次の形式がサポートされています。 Partition_name=value name1=value1/name2=value2: マルチレベルパーティション説明複数のパーティションを指定する場合は、コンマ (,) で区切ります。	N/A
outputTable	可	ボックスプロットチャートとサンプルを格納する出力テーブルの名前。	N/A
continueCols	可	連続フィーチャを表す列。The column to representing the continuous feature.	N/A
categoryCol	可	列挙機能を表す列。The column to represent the enumeration feature.	N/A
sampleSize	不可	各フィーチャの外乱条件が描画されるサンプルの数。	1000
ライフサイクル	不可	出力テーブルのライフサイクル。単位：日	28
coreNum	不可	コンピューティングで使用されるコアの数。このパラメーターの値は正の整数でなければなりません。	自動割り当て
memSizePerCore	不可	各コアのメモリサイズ。有効な値: 1 ~ 65536 単位：MB。	自動割り当て

例

入力データ

create table boxplot as select age, y from bank_data limit 100;

年齢	y
50	0
53	0
28	1
39	0
55	1
有効期限の 30	0
37	0
39	0
36	1
27	0
34	0
41	0
55	1
33	0
26	0
52	0
35	1
27	1
28	0
26	0
41	0
35	0
40	0
32	0
41	0
34	0
49	0
37	0
35	0
38	0
47	0
46	0
27	0
29	1
32	0
36	0
29	0
47	0
44	0
54	0
36	0
42	0
44	0
72	1
48	0
36	0
35	0
43	0
56	0
42	0
31	0
32	0
33	0
31	0
39	0
有効期限の 30	1
24	0
24	0
38	0
26	0
41	0
34	0
有効期限の 30	0
37	0
68	0
31	0
48	0
33	0
59	0
44	0
28	0
50	0
33	0
45	0
40	0
45	0
43	0
54	0
53	0
35	0
有効期限の 30	0
25	0
35	0
54	1
有効期限の 30	0
38	0
35	0
47	0
32	0
27	0
40	1
31	0
42	0
40	0
31	0
57	0
38	1
39	0
37	0
44	0

パラメータ設定
age列を連続フィーチャ列として指定し、y列を列挙フィーチャ列として指定します。他のパラメーターのデフォルト値を保持します。
Output
- アウトプットの説明
  [ボックスプロット] を右クリックし、[データの表示] > [出力ポート] を選択して出力を表示します。パラメーター：
  - percent_points: 計算されたパーセンタイルを示します。
  - percent_count: 各区間のデータエントリ数を示します。間隔は、百分位数によって分割される。
  - sample_list: サンプルは、サンプリングレートに基づいて各階層から選択されます。サンプリングレートは、以下の式を用いて計算される。サンプリングレート=層化されたサンプルの数 /データエントリの総数。サンプリングレートが低すぎて、各階層内のサンプル数にサンプリングレートを乗じた値が10未満である場合、新しいサンプリングレートが再計算される。
- 次の図は、ボックスプロットグラフを示しています。
- 次の図は、外乱ポイントの分布を示しています。