Platform for AI (PAI) のVisualized Modeling (デザイナー) は、ヒストグラムコンポーネントを提供します。 ヒストグラムは、質量分布プロファイルとしても知られています。 ヒストグラムは、データ分布を示すために、さまざまな高さの一連の縦縞または線分で構成される統計レポートチャートです。 横軸はデータ型を表し、縦軸はデータ分布を表します。
コンポーネントの設定
次のいずれかの方法を使用して、ヒストグラム (複数列) コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Designerのパイプラインページで、左側のウィンドウで [ヒストグラム (複数の列)] を検索します。 キャンバスにドラッグして、上流のノードに接続します。 次に、コンポーネントをクリックしてパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールドの設定 | 列の選択 | 分析する列を選択します。 DOUBLE型とBIGINT型のみがサポートされています。 最大1,024の列がサポートされます。 |
パラメーター設定 | 間隔 | データが分割される間隔の数。 |
チューニング | コア | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 デフォルトでは、値は自動的に選択されます。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 デフォルトでは、値は自動的に選択されます。 |
ノードの実行後、ノードを右クリックし、[Visual Analysis] または [データの表示] を選択して出力を表示します。
方法2: PAIコマンドを使用する
SQLスクリプトコンポーネントを使用してコンポーネントパラメーターを設定し、PAIコマンドを呼び出します。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name histogram
-project algo_public
-DinputTableName=maple_histogram_1to20_input
-DoutputTableName=maple_histogram_1to20_output
-DselectedColNames=col0,col1 -DintervalNum=20;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 必須 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 選択可能 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | デフォルト値なし |
outputTableName | 必須 | 出力テーブルの名前。 | デフォルト値なし |
selectedColNames | 必須 | トレーニング用に入力テーブルから選択された列の名前。 複数の列の名前はコンマ (,) で区切ります。 INT型とDOUBLE型がサポートされています。 最大1,024の列がサポートされます。 | デフォルト値なし |
intervalNum | 選択可能 | データが分割される間隔の数。 | 100 |
lifecycle | 選択可能 | テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 選択可能 | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 有効な値: [1,9999] 。 | システムによって自動的に選択される |
memSizePerCore | 選択可能 | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 | システムによって自動的に選択される |
例:
左側のウィンドウでSQL Scriptを検索し、キャンバスにドラッグします。
上流ノードに接続してデータを取得します。 サンプルデータ:
SQLスクリプトノードに次のPAIコマンドを設定します。
PAI -name histogram -project algo_public --Default parameter. You do not need to change it -DinputTableName=maple_histogram_1to20_input --Name of input table -DoutputTableName=maple_histogram_1to20_output --Name of output table -DselectedColNames=col0,col1 --The selected columns -DintervalNum=20; --The number of intervals
SQLスクリプトノードを右クリックし、[現在のノードを実行] を選択します。
上流ノードが実行されていない場合は、まず上流ノードを実行してデータを読み取ります。
出力テーブルから結果を表示します。 サンプル出力:
colname
ヒストグラム
col0
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1
col1
[1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1