通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。该组件支持稀疏和稠密数据格式。本文为您介绍Designer提供的数据视图算法的参数配置方式及使用示例。
组件配置
您可以使用以下任意一种方式,配置数据视图组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 选择特征列 | 用来表现训练样本数据特征的列。 |
选择目标列 | 用来进行训练样本数据的目标列。 | |
枚举特征 | 勾选的特征将被视作枚举特征处理。 | |
k:v,k:v稀疏数据格式 | 是否采用KV格式的稀疏数据。 | |
参数设置 | 连续特征离散区间数 | 连续性特征等距离划分最大区间数。 |
执行调优 | 计算核心数 | 计算的核心数,取值范围为正整数。 |
每个核心内存 | 每个核心的内存,取值范围为1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;
参数名称 | 是否必选 | 描述 | 默认值 |
inputTable | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。 | 无 |
outputTable | 是 | 输出表名称。 | 无 |
mapTable | 是 | 输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练) | 无 |
selectedCols | 是 | 输入表选择列名类型。 | 无 |
labelCol | 否 | 标签列。 | 无 |
categoryCols | 否 | 把Int或者Double字段当做枚举特征。 | 无 |
maxBins | 否 | 连续性特征等距离划分最大区间数。 | 100 |
isSparse | 否 | 输入数据是否为稀疏格式,取值范围为{true,false}。 | false |
itemSpliter | 否 | 当输入表数据为稀疏格式时,KV对之间的分隔符。 | 英文逗号(,) |
kvSpliter | 否 | 当输入表数据为稀疏格式时,key和value之间的分隔符。 | 英文冒号(:) |
lifecycle | 否 | 表的生命周期。 | 28 |
coreNum | 否 | 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存,取值范围为1 MB~65536 MB。 | 系统自动分配 |
示例
输入数据
age
workclass
fwlght
edu
edu_num
married
c
family
race
sex
gail
loss
work_year
country
income
39
State-gov
77516
Bachelors
13
Never-married
Adm-clerical
Not-in-family
White
Male
2174.0
0.0
40.0
United-States
<=50K
50
Self-emp-not-inc
83311
Bachelors
13
Married-civ-spouse
Exec-managerial
Husband
White
Male
0.0
0.0
13.0
United-States
<=50K
38
Private
215646
HS-grad
9
Divorced
Handlers-cleaners
Not-in-family
White
Male
0.0
0.0
40.0
United-States
<=50K
53
Private
234721
11th
7
Married-civ-spouse
Handlers-cleaners
Husband
Black
Male
0.0
0.0
40.0
United-States
<=50K
28
Private
338409
Bachelors
13
Married-civ-spouse
Prof-specialty
Wife
Black
Female
0.0
0.0
40.0
Other
<=50K
37
Private
284582
Masters
14
Married-civ-spouse
Exec-managerial
Wife
White
Female
0.0
0.0
40.0
United-States
<=50K
49
Private
160187
9th
5
Married-spouse-absent
Other-service
Not-in-family
Black
Female
0.0
0.0
16.0
Jamaica
<=50K
52
Self-emp-not-inc
209642
HS-grad
9
Married-civ-spouse
Exec-managerial
Husband
White
Male
0.0
0.0
45.0
United-States
>50K
31
Private
45781
Masters
14
Never-married
Prof-specialty
Not-in-family
White
Female
14084.0
0.0
50.0
United-States
>50K
42
Private
159449
Bachelors
13
Married-civ-spouse
Exec-managerial
Husband
White
Male
5178.0
0.0
40.0
United-States
>50K
建模DAG
在数据视图的字段设置页签,选择income为目标列,其他14个字段为特征列,其中BIGINT类型的edu_num字段作为枚举值处理。
建模效果
右键单击数据视图,选择family、race、sex及income等映射成数值(某种程度有数据格式转换的功能)。
,为了方便数据被机器学习算法训练,将STRING字段的右键单击数据视图,选择
。说明如果没有选择STRING类型的特征列,则输出结果中String字段特征值映射表内容为空。
右键单击数据视图,选择distribute_info表示将最大值和最小值区间等距划分,然后统计每个区间里的数据条数。
。其中: