拆分组件 - 人工智能平台 PAI

Designer提供了拆分组件，用于对数据进行随机拆分以生成训练和测试集，支持按比例拆分和按阈值拆分两种拆分方式。

组件配置

您可以使用以下任意一种方式配置拆分组件参数，拆分后按照配置生成2个数据表。

方式一：可视化方式

进入Designer工作流页面，在左侧组件列表中搜索拆分组件，将其拖入画布，连接好上游节点后，单击拆分组件配置组件参数。

说明

如果两种拆分方式均配置了参数，则按阈值拆分方式优先级高于按比例拆分。

页签	参数		描述
参数设置	拆分方式：按比例拆分	切分比例	输出表1占原数据的比例，取值范围(0,1)。
		随机数种子	随机种子数可以固定随机生成器的状态，使得在相同种子下的多次运行能够得到相同的划分结果。不配置时系统默认生成。
		ID列（ID列相同的不会被拆分）	选中高级选项时可配置。仅支持选择单列，ID列相同的行数据不会被拆分，会被全量随机分配到输出表1或输出表2中。
	拆分方式：按阈值拆分	阈值列	对该列数据按阈值拆分，不支持String列。
		阈值	对阈值列按照阈值进行全量拆分，输出表1中阈值列值均小于阈值，输出表2中的均大于或等于阈值。
执行调优	计算核心数		系统根据输入数据量，自动分配训练的实例数量。默认自动选择。
	每个核内存数		系统根据输入数据量，自动分配内存。单位为MB。默认自动选择。

方式二：PAI命令方式

您可以使用SQL脚本组件，取消选中是否由系统添加Create Table语句，输入如下脚本，通过PAI命令方式配置该组件参数。详情请参见SQL脚本。

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

说明

不支持同时设置按比例拆分方式和按阈值拆分方式参数。

参数类别	参数名称	是否必填	参数描述	默认值
通用参数	inputTableName	是	输入表的表名。	无
	inputTablePartitions	否	输入表中，参与训练的分区。支持以下格式： Partition_name=value name1=value1/name2=value2：多级格式说明如果指定多个分区，则使用英文逗号（,）分隔。	所有分区
	output1TableName	是	输出表1。	无
	output1TablePartition	否	输出表1分区名。	输出表1为非分区表
	output2TableName	是	输出表2。	无
	output2TablePartition	否	输出表2分区名。	输出表2为非分区表
	lifecycle	否	输出表的生命周期，取值范围为[1,3650]。	无
	coreNum	否	计算核心数，属于执行调优参数。系统根据输入数据量自动分配训练的实例数量。	默认自动选择
	memSizePerCore	否	每个核内存数（单位MB），属于执行调优参数。系统根据输入数据量自动分配内存，取值范围为(1, 65536)。	默认自动选择
按比例拆分方式参数	fraction	是	切分至输出表1的数据比例，取值范围为(0,1)。	无
	randomSeed	否	随机数种子，取值范围为正整数。	系统默认生成
	idColName	否	ID列。仅支持选择单列，ID列相同的行数据不会被拆分，会被全量随机分配到输出表1或输出表2中。	无
按阈值拆分方式参数	thresholdColName	是	阈值列。对该列数据按阈值拆分，不支持String列。	无
按阈值拆分方式参数	threshold	是	阈值。对阈值列按照阈值进行全量拆分，输出表1中阈值列值均小于阈值，输出表2中的均大于或等于阈值。	无