すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ヒストグラム (複数列)

最終更新日:Dec 03, 2024

Platform for AI (PAI) のVisualized Modeling (デザイナー) は、ヒストグラムコンポーネントを提供します。 ヒストグラムは、質量分布プロファイルとしても知られています。 ヒストグラムは、データ分布を示すために、さまざまな高さの一連の縦縞または線分で構成される統計レポートチャートです。 横軸はデータ型を表し、縦軸はデータ分布を表します。

コンポーネントの設定

次のいずれかの方法を使用して、ヒストグラム (複数列) コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Designerのパイプラインページで、左側のウィンドウで [ヒストグラム (複数の列)] を検索します。 キャンバスにドラッグして、上流のノードに接続します。 次に、コンポーネントをクリックしてパラメーターを設定します。

タブ

パラメーター

説明

フィールドの設定

列の選択

分析する列を選択します。 DOUBLE型とBIGINT型のみがサポートされています。 最大1,024の列がサポートされます。

パラメーター設定

間隔

データが分割される間隔の数。

チューニング

コア

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 デフォルトでは、値は自動的に選択されます。

コアあたりのメモリサイズ

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 デフォルトでは、値は自動的に選択されます。

ノードの実行後、ノードを右クリックし、[Visual Analysis] または [データの表示] を選択して出力を表示します。

方法2: PAIコマンドを使用する

SQLスクリプトコンポーネントを使用してコンポーネントパラメーターを設定し、PAIコマンドを呼び出します。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name histogram
      -project algo_public
      -DinputTableName=maple_histogram_1to20_input
      -DoutputTableName=maple_histogram_1to20_output
      -DselectedColNames=col0,col1 -DintervalNum=20;

パラメーター

必須

説明

デフォルト値

inputTableName

必須

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

選択可能

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。

デフォルト値なし

outputTableName

必須

出力テーブルの名前。

デフォルト値なし

selectedColNames

必須

トレーニング用に入力テーブルから選択された列の名前。 複数の列の名前はコンマ (,) で区切ります。 INT型とDOUBLE型がサポートされています。

最大1,024の列がサポートされます。

デフォルト値なし

intervalNum

選択可能

データが分割される間隔の数。

100

lifecycle

選択可能

テーブルのライフサイクル。

デフォルト値なし

coreNum

選択可能

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 有効な値: [1,9999] 。

システムによって自動的に選択される

memSizePerCore

選択可能

各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。

システムによって自動的に選択される

例:

方法2: PAIコマンドの使用

  1. 左側のウィンドウでSQL Scriptを検索し、キャンバスにドラッグします。

  2. 上流ノードに接続してデータを取得します。 サンプルデータ:

    サンプルデータ

    col0 (BIGINT)

    col1 (ダブル)

    1

    1.0

    2

    2.0

    3

    3.0

    4

    4.0

    5

    5.0

    6

    6.0

    7

    7.0

    8

    8.0

    9

    9.0

    10

    10.0

    11

    11.0

    12

    12.0

    13

    13.0

    14

    14.0

    15

    15.0

    16

    16.0

    17

    17.0

    18

    18.0

    19

    19.0

    20

    20.0

  3. SQLスクリプトノードに次のPAIコマンドを設定します。

    PAI -name histogram -project algo_public  --Default parameter. You do not need to change it     
        -DinputTableName=maple_histogram_1to20_input  --Name of input table
        -DoutputTableName=maple_histogram_1to20_output  --Name of output table
        -DselectedColNames=col0,col1  --The selected columns
        -DintervalNum=20;  --The number of intervals
  4. SQLスクリプトノードを右クリックし、[現在のノードを実行] を選択します。

    上流ノードが実行されていない場合は、まず上流ノードを実行してデータを読み取ります。

  5. 出力テーブルから結果を表示します。 サンプル出力:

    colname

    ヒストグラム

    col0

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1

    col1

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1