以加权方式生成采样数据。权重列必须为DOUBLE或BIGINT类型,按照该列值的大小采样。比如所选权重列的值是1.2和1.0,则值为1.2所属样本的被采样的概率就大一些。
组件配置
您可以使用以下任意一种方式,配置加权采样组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
参数设置 | 采样个数 | 取值为正整数。 |
采样比例 | 取值为浮点数,范围(0,1)。 | |
放回采样 | 默认为不放回,勾选后变为放回。 | |
权重列 | 下拉框选择加权列,加权列支持DOUBLE型和BIGINT型。每个值代表所在记录出现的权重,不需要归一化。 | |
随机数种子 | 默认系统自动生成。 | |
执行调优 | 核心数 | 取值为正整数,默认系统自动分配。 |
核内存分配 | 取值为正整数,范围(1, 65536),默认系统自动分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name WeightedSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-DprobCol="previous"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
参数名称 | 是否必选 | 参数描述 | 默认值 |
inputTableName | 是 | 输入表的名称 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。支持以下格式:
说明 如果指定多个分区,则使用半角逗号(,)分隔。 | 所有分区 |
outputTableName | 是 | 输出结果表 | 无 |
sampleSize | 否 | 采样个数 说明
| 无 |
sampleRatio | 否 | 采样比例,浮点数,范围(0,1)。 | 无 |
probCol | 是 | 要加权的列,每个值代表所在记录出现的权重,不需要归一化,支持DOUBLE型和BIGINT型。 | 无 |
replace | 否 | 是否放回,BOOLEAN类型。 | false(默认不放回) |
randomSeed | 否 | 随机数种子,取值范围为正整数。 | 系统自动分配 |
lifecycle | 否 | 输出表的生命周期,取值范围为[1,3650]。 | 无 |
coreNum | 否 | 计算的核心数目,取值范围为正整数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存(单位是MB),取值范围为(1, 65536)。 | 系统自动分配 |