本文为您介绍Designer提供的箱线图。
箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
使用限制
仅原PAI-Studio平台支持查看该组件的可视化报告。
配置组件
您可以使用以下任意一种方式,配置箱线图组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 选择连续类型特征 | 选择连续类型的特征。 |
选择枚举类型特征 | 选择枚举类型的特征。 说明 在Designer中仅支持选择一个字段;在Designer中支持选择多个字段。 | |
分层样本采用数 | 分层样本的采用数。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name box_plot -project algo_public
-DinputTable="boxplot"
-DcontinueCols="age"
-DcategoryCol="y"
-DoutputTable="pai_temp_6075_97181_1"
-DsampleSize="1000"
-Dlifecycle="7";
参数名称 | 是否必选 | 描述 | 默认值 |
inputTable | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。 | 无 |
outputTable | 是 | 输出表名,存放箱线图和采样的样本。 | 无 |
continueCols | 是 | 连续类型特征列。 | 无 |
categoryCol | 是 | 枚举类型特征列。 | 无 |
sampleSize | 否 | 绘制每个特征的扰动情况的样本采样数。 | 1000 |
lifecycle | 否 | 输出表生命周期,单位为:天。 | 28 |
coreNum | 否 | 计算的核心数,取值范围为正整数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存,取值范围为1 MB~65536 MB。 | 系统自动分配 |
示例
输入数据
create table boxplot as select age, y from bank_data limit 100;
age
y
50
0
53
0
28
1
39
0
55
1
30
0
37
0
39
0
36
1
27
0
34
0
41
0
55
1
33
0
26
0
52
0
35
1
27
1
28
0
26
0
41
0
35
0
40
0
32
0
41
0
34
0
49
0
37
0
35
0
38
0
47
0
46
0
27
0
29
1
32
0
36
0
29
0
47
0
44
0
54
0
36
0
42
0
44
0
72
1
48
0
36
0
35
0
43
0
56
0
42
0
31
0
32
0
33
0
31
0
39
0
30
1
24
0
24
0
38
0
26
0
41
0
34
0
30
0
37
0
68
0
31
0
48
0
33
0
59
0
44
0
28
0
50
0
33
0
45
0
40
0
45
0
43
0
54
0
53
0
35
0
30
0
25
0
35
0
54
1
30
0
38
0
35
0
47
0
32
0
27
0
40
1
31
0
42
0
40
0
31
0
57
0
38
1
39
0
37
0
44
0
参数配置
选择age为连续类型特征,y为枚举类特征,其他保持默认值。
运行效果
输出说明
右键单击箱线图,选择
,来查看箱线图的输出结果。其中:percent_points:表示计算的百分位数。
percent_count:表示按百分位数划分区间后,各个区间内的数据条数。
sample_list:首先使用分层样本采用数 ÷ 数据总数计算得出采样率,根据采样率在每层样本中进行采样。如果采样率太低,导致每层里的样本数 × 采样率小于10,则会重新计算新的采样率。
箱线图分布情况如下图所示。
扰动点图分布情况如下图所示。