全部产品
Search
文档中心

人工智能平台 PAI:直方图(多字段)

更新时间:Nov 19, 2024

Designer提供了直方图组件。直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,通常横轴表示数据类型,纵轴表示分布情况。

组件配置

您可以使用以下任意一种方式,配置直方图组件参数。

方式一:可视化方式

进入Designer工作流页面,在左侧组件列表中搜索直方图组件,将其拖入画布,连接好上游节点后,单击直方图组件配置组件参数。

页签

参数

描述

字段设置

选择字段

选择需要统计分析的字段(仅支持DOUBLE和BIGINT类型)。最大不超过1024个字段。

参数设置

区间个数

将数据分成的区间数量。

执行调优

计算核心数

计算的核心数(正整数),默认自动选择。

每个核内存数

每个核心的内存(1 MB~65536 MB),默认自动选择。

节点成功执行后,您可以右键单击该节点,选择可视化分析查看数据查看输出结果。

方式二:PAI命令方式

您可以使用SQL脚本组件,输入如下脚本,通过PAI命令方式配置该组件参数,详情请参见SQL脚本

PAI -name histogram -project algo_public
    -DinputTableName=maple_histogram_1to20_input
    -DoutputTableName=maple_histogram_1to20_output
    -DselectedColNames=col0,col1 
    -DintervalNum=20;

参数名称

是否必选

描述

默认值

inputTableName

输入表名称。

inputTablePartitions

输入表中,参与训练的分区。

系统支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级分区

说明

指定多个分区时,分区之间使用英文逗号(,)分隔。

outputTableName

输出表名称。

selectedColNames

输入表中需要统计分析的字段(仅支持BIGINT和DOUBLE类型)。

支持选择多个字段,以逗号分隔。最大不超过1024列。

intervalNum

直方图的区间个数,即将数据分成的区间数量。

100

lifecycle

表的生命周期。

coreNum

计算的核心数(正整数,取值范围[1, 9999])。

系统自动选择

memSizePerCore

每个核心的内存(1 MB~65536 MB)。

系统自动选择

示例

使用方式二:PAI命令方式示例如下。

  1. 在左侧组件列表中搜索SQL脚本组件,将其拖入画布中。

  2. 连接上游节点,获取需要分析的数据。本示例输入数据如下。

    示例数据

    col0 (BIGINT)

    col1 (DOUBLE)

    1

    1.0

    2

    2.0

    3

    3.0

    4

    4.0

    5

    5.0

    6

    6.0

    7

    7.0

    8

    8.0

    9

    9.0

    10

    10.0

    11

    11.0

    12

    12.0

    13

    13.0

    14

    14.0

    15

    15.0

    16

    16.0

    17

    17.0

    18

    18.0

    19

    19.0

    20

    20.0

  3. 在SQL脚本组件中,通过PAI命令配置该组件参数,本示例输入脚本如下。

    PAI -name histogram -project algo_public  --组件默认参数,无需修改     
        -DinputTableName=maple_histogram_1to20_input  --输入表名称
        -DoutputTableName=maple_histogram_1to20_output  --输出表名称
        -DselectedColNames=col0,col1  --输入表中需要统计的字段
        -DintervalNum=20;  --直方图的区间个数
  4. 右键单击该SQL脚本节点,选择执行该节点

    如果上游有未执行节点,请先执行上游节点,以正确读取待分析的数据。

  5. 节点运行成功后,可在输出表查看结果。本示例输出结果如下。

    colname

    histogram

    col0

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1

    col1

    [1, 1.95):1;[1.95, 2.9):1;[2.9, 3.85):1;[3.85, 4.8):1;[4.8, 5.75):1;[5.75, 6.7):1;[6.7, 7.65):1;[7.65, 8.6):1;[8.6, 9.55):1;[9.55, 10.5):1;[10.5, 11.45):1;[11.45, 12.4):1;[12.4, 13.35):1;[13.35, 14.3):1;[14.3, 15.25):1;[15.25, 16.2):1;[16.2, 17.15):1;[17.15, 18.1):1;[18.1, 19.05):1;[19.05, 20]:1