全部產品
Search
文件中心

Platform For AI:盒狀圖

更新時間:Jul 13, 2024

本文為您介紹Designer提供的盒狀圖。

盒鬚圖是一種用作顯示一組資料分散情況的統計圖。它主要用於反映未經處理資料分布的特徵,還可以進行多組資料分布特徵的比較。

使用限制

僅原PAI-Studio平台支援查看該組件的可視化報告。

配置組件

您可以使用以下任意一種方式,配置盒狀圖組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇連續類型特徵

選擇連續類型的特徵。

選擇枚舉類型特徵

選擇枚舉類型的特徵。

說明

Designer中僅支援選擇一個欄位;在Designer中支援選擇多個欄位。

分層樣本採用數

分層樣本的採用數。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
     -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";

參數名稱

是否必選

描述

預設值

inputTable

輸入表的名稱。

inputTablePartitions

輸入表中,參與訓練的分區。系統支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級分區

說明

指定多個分區時,分區之間使用英文逗號(,)分隔。

outputTable

輸出表名,存放盒狀圖和採樣的樣本。

continueCols

連續類型特徵列。

categoryCol

枚舉類型特徵列。

sampleSize

繪製每個特徵的擾動情況的樣本採樣數。

1000

lifecycle

輸出表生命週期,單位為:天。

28

coreNum

計算的核心數,取值範圍為正整數。

系統自動分配

memSizePerCore

每個核心的記憶體,取值範圍為1 MB~65536 MB。

系統自動分配

樣本

  • 輸入資料

    create table boxplot as select age, y from bank_data limit 100;

    age

    y

    50

    0

    53

    0

    28

    1

    39

    0

    55

    1

    30

    0

    37

    0

    39

    0

    36

    1

    27

    0

    34

    0

    41

    0

    55

    1

    33

    0

    26

    0

    52

    0

    35

    1

    27

    1

    28

    0

    26

    0

    41

    0

    35

    0

    40

    0

    32

    0

    41

    0

    34

    0

    49

    0

    37

    0

    35

    0

    38

    0

    47

    0

    46

    0

    27

    0

    29

    1

    32

    0

    36

    0

    29

    0

    47

    0

    44

    0

    54

    0

    36

    0

    42

    0

    44

    0

    72

    1

    48

    0

    36

    0

    35

    0

    43

    0

    56

    0

    42

    0

    31

    0

    32

    0

    33

    0

    31

    0

    39

    0

    30

    1

    24

    0

    24

    0

    38

    0

    26

    0

    41

    0

    34

    0

    30

    0

    37

    0

    68

    0

    31

    0

    48

    0

    33

    0

    59

    0

    44

    0

    28

    0

    50

    0

    33

    0

    45

    0

    40

    0

    45

    0

    43

    0

    54

    0

    53

    0

    35

    0

    30

    0

    25

    0

    35

    0

    54

    1

    30

    0

    38

    0

    35

    0

    47

    0

    32

    0

    27

    0

    40

    1

    31

    0

    42

    0

    40

    0

    31

    0

    57

    0

    38

    1

    39

    0

    37

    0

    44

    0

  • 參數配置

    選擇age為連續類型特徵,y為枚舉類特徵,其他保持預設值。

  • 運行效果

    • 輸出說明

      按右鍵盒狀圖,選擇查看資料 > 輸出,來查看盒狀圖的輸出結果。其中:

      • percent_points:表示計算的百分位元。

      • percent_count:表示按百分位元劃分區間後,各個區間內的資料條數。

      • sample_list:首先使用分層樣本採用數 ÷ 資料總數計算得出採樣率,根據採樣率在每層樣本中進行採樣。如果採樣率太低,導致每層裡的樣本數 × 採樣率小於10,則會重新計算新的採樣率。

    • 盒狀圖分布情況如下圖所示。盒狀圖結果

    • 擾動點圖分布情況如下圖所示。擾動點圖結果