全部產品
Search
文件中心

Platform For AI:長條圖(多欄位)

更新時間:Nov 20, 2024

Designer提供了長條圖組件。長條圖(Histogram)又稱品質分布圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示資料分布的情況,通常橫軸表示資料類型,縱軸表示分布情況。

組件配置

您可以使用以下任意一種方式,配置長條圖組件參數。

方式一:可視化方式

進入Designer工作流程頁面,在左側組件列表中搜尋長條圖組件,將其拖入畫布,串連好上遊節點後,單擊長條圖組件配置組件參數。

頁簽

參數

描述

欄位設定

選擇欄位

選擇需要統計分析的欄位(僅支援DOUBLE和BIGINT類型)。最大不超過1024個欄位。

參數設定

區間個數

將資料分成的區間數量。

執行調優

計算核心數

計算的核心數(正整數),預設自動選擇。

每個核記憶體數

每個核心的記憶體(1 MB~65536 MB),預設自動選擇。

節點成功執行後,您可以按右鍵該節點,選擇可視化分析查看資料查看輸出結果。

方式二:PAI命令方式

您可以使用SQL指令碼組件,輸入如下指令碼,通過PAI命令方式配置該組件參數,詳情請參見SQL指令碼

PAI -name histogram -project algo_public
    -DinputTableName=maple_histogram_1to20_input
    -DoutputTableName=maple_histogram_1to20_output
    -DselectedColNames=col0,col1 
    -DintervalNum=20;

參數名稱

是否必選

描述

預設值

inputTableName

輸入表名稱。

inputTablePartitions

輸入表中,參與訓練的分區。

系統支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級分區

說明

指定多個分區時,分區之間使用英文逗號(,)分隔。

outputTableName

輸出表名稱。

selectedColNames

輸入表中需要統計分析的欄位(僅支援BIGINT和DOUBLE類型)。

支援選擇多個欄位,以逗號分隔。最大不超過1024列。

intervalNum

長條圖的區間個數,即將資料分成的區間數量。

100

lifecycle

表的生命週期。

coreNum

計算的核心數(正整數,取值範圍[1, 9999])。

系統自動選擇

memSizePerCore

每個核心的記憶體(1 MB~65536 MB)。

系統自動選擇

樣本

使用方式二:PAI命令方式樣本如下。

  1. 在左側組件列表中搜尋SQL指令碼組件,將其拖入畫布中。

  2. 串連上遊節點,擷取需要分析的資料。本樣本輸入資料如下。

    樣本資料

    col0 (BIGINT)

    col1 (DOUBLE)

    1

    1.0

    2

    2.0

    3

    3.0

    4

    4.0

    5

    5.0

    6

    6.0

    7

    7.0

    8

    8.0

    9

    9.0

    10

    10.0

    11

    11.0

    12

    12.0

    13

    13.0

    14

    14.0

    15

    15.0

    16

    16.0

    17

    17.0

    18

    18.0

    19

    19.0

    20

    20.0

  3. 在SQL指令碼組件中,通過PAI命令配置該組件參數,本樣本輸入指令碼如下。

    PAI -name histogram -project algo_public  --組件預設參數,無需修改     
        -DinputTableName=maple_histogram_1to20_input  --輸入表名稱
        -DoutputTableName=maple_histogram_1to20_output  --輸出表名稱
        -DselectedColNames=col0,col1  --輸入表中需要統計的欄位
        -DintervalNum=20;  --長條圖的區間個數
  4. 按右鍵該SQL指令碼節點,選擇執行該節點

    如果上遊有未執行節點,請先執行上遊節點,以正確讀取待分析的資料。

  5. 節點運行成功後,可在輸出表查看結果。本樣本輸出結果如下。

    colname

    histogram

    col0

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1

    col1

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1