本文为您介绍Designer提供的拆分算法。拆分是对数据进行随机拆分,用于生成训练和测试集。
组件配置
您可以使用以下任意一种方式,配置拆分组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
参数设置 | 拆分方式 |
|
切分比例 | 取值范围为(0,1)。 | |
随机数种子 | 系统默认生成。 | |
ID列(ID列相同的不会被拆分) | ID列中,内容相同的行数据不会被拆分,会被全量随机分配到输出表1或输出表2中。 说明 勾选高级选项时展示,仅支持选择单列。 | |
阈值列 | 选择某个列名,对该列内容按阈值拆分,不支持String列。 | |
阈值 | 参考阈值列内容,配置拆分阈值。输出表1中的数据均小于阈值。输出表2中的数据均大于或等于阈值。 重要 您在使用按阈值拆分方式时,请先清空按比例拆分方式配置的切分比例字段内容。 | |
执行调优 | 计算核心数 | 系统根据输入数据量,自动分配训练的实例数量。 |
每个核内存数 | 系统根据输入数据量,自动分配内存。单位为MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
参数名称 | 是否必选 | 参数描述 | 默认值 |
inputTableName | 是 | 输入表的表名。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。支持以下格式:
说明 如果指定多个分区,则使用英文逗号(,)分隔。 | 所有分区 |
output1TableName | 是 | 输出结果表1。 | 无 |
output1TablePartition | 否 | 输出结果表1分区名。 | 输出表1为非分区表 |
output2TableName | 是 | 输出结果表2。 | 无 |
output2TablePartition | 否 | 输出结果表2分区名。 | 输出表2为非分区表 |
fraction | 否 | 切分至输出表1的数据比例,取值范围为(0,1)。 | 无 |
randomSeed | 否 | 随机数种子,取值范围为正整数。 | 系统自动分配 |
idColName | 否 | ID列(ID相同的数据不会被拆分) | 无 |
thresholdColName | 否 | 阈值所在列名,不支持String列。 | 无 |
threshold | 否 | 阈值。 | 无 |
lifecycle | 否 | 输出表的生命周期,取值范围为[1,3650]。 | 无 |
coreNum | 否 | 核心数量。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存(单位是兆),取值范围为(1, 65536)。 | 系统自动分配 |