以加權方式產生採樣資料。權重列必須為DOUBLE或BIGINT類型,按照該列值的大小採樣。比如所選權重列的值是1.2和1.0,則值為1.2所屬樣本的被採樣的機率就大一些。
組件配置
您可以使用以下任意一種方式,配置加權採樣組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
參數設定 | 採樣個數 | 取值為正整數。 |
採樣比例 | 取值為浮點數,範圍(0,1)。 | |
放回採樣 | 預設為不放回,勾選後變為放回。 | |
權重列 | 下拉框選擇加權列,加權列支援DOUBLE型和BIGINT型。每個值代表所在記錄出現的權重,不需要歸一化。 | |
隨機數種子 | 預設系統自動產生。 | |
執行調優 | 核心數 | 取值為正整數,預設系統自動分配。 |
核記憶體配置 | 取值為正整數,範圍(1, 65536),預設系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name WeightedSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-DprobCol="previous"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
參數名稱 | 是否必選 | 參數描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支援以下格式:
說明 如果指定多個分區,則使用半形逗號(,)分隔。 | 所有分區 |
outputTableName | 是 | 輸出結果表 | 無 |
sampleSize | 否 | 採樣個數 說明
| 無 |
sampleRatio | 否 | 採樣比例,浮點數,範圍(0,1)。 | 無 |
probCol | 是 | 要加權的列,每個值代表所在記錄出現的權重,不需要歸一化,支援DOUBLE型和BIGINT型。 | 無 |
replace | 否 | 是否放回,BOOLEAN類型。 | false(預設不放回) |
randomSeed | 否 | 隨機數種子,取值範圍為正整數。 | 系統自動分配 |
lifecycle | 否 | 輸出表的生命週期,取值範圍為[1,3650]。 | 無 |
coreNum | 否 | 計算的核心數目,取值範圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體(單位是MB),取值範圍為(1, 65536)。 | 系統自動分配 |