本文为您介绍Designer提供的增加序号列组件。您可以在数据表的第一列追加ID列。
背景信息
支持1000000000*1023的算法规模。
组件配置
您可以使用以下任意一种方式,配置增加序号列组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
参数设置 | 默认全选 | 默认全选,多余列不影响预测结果。 |
序列号 | 默认为append_id。 | |
执行调优 | 计算核心数 | 核心数量。 |
每个核内存数 | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
参数名称 | 是否必选 | 参数描述 | 默认值 |
inputTableName | 是 | 输入表的表名。 | 无 |
selectedColNames | 否 | 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。 | 所有列 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。支持以下格式:
说明 如果指定多个分区,则使用英文逗号(,)分隔。 | 所有分区 |
outputTableName | 是 | 输出结果表。 | 无 |
IDColName | 否 | ID列列名。 | append_id |
lifecycle | 否 | 输出表生命周期。 | 无 |
coreNum | 否 | 核心数量。 | 系统自动分配 |
memSizePerCore | 否 | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。 | 系统自动分配 |
示例
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
数据生成
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
输出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true