本文為您介紹Designer提供的拆分演算法。拆分是對資料進行隨機拆分,用於產生訓練和測試集。
組件配置
您可以使用以下任意一種方式,配置拆分組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
參數設定 | 拆分方式 |
|
切分比例 | 取值範圍為(0,1)。 | |
隨機數種子 | 系統預設產生。 | |
ID列(ID列相同的不會被拆分) | ID列中,內容相同的行資料不會被拆分,會被全量隨機分配到輸出表1或輸出表2中。 說明 勾選進階選項時展示,僅支援選擇單列。 | |
閾值列 | 選擇某個列名,對該列內容按閾值拆分,不支援String列。 | |
閾值 | 參考閾值列內容,配置拆分閾值。輸出表1中的資料均小於閾值。輸出表2中的資料均大於或等於閾值。 重要 您在使用按閾值拆分方式時,請先清空按比例拆分方式配置的切分比例欄位內容。 | |
執行調優 | 計算核心數 | 系統根據輸入資料量,自動分配訓練的執行個體數量。 |
每個核記憶體數 | 系統根據輸入資料量,自動分配記憶體。單位為MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
參數名稱 | 是否必選 | 參數描述 | 預設值 |
inputTableName | 是 | 輸入表的表名。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支援以下格式:
說明 如果指定多個分區,則使用英文逗號(,)分隔。 | 所有分區 |
output1TableName | 是 | 輸出結果表1。 | 無 |
output1TablePartition | 否 | 輸出結果表1分區名。 | 輸出表1為非分區表 |
output2TableName | 是 | 輸出結果表2。 | 無 |
output2TablePartition | 否 | 輸出結果表2分區名。 | 輸出表2為非分區表 |
fraction | 否 | 切分至輸出表1的資料比例,取值範圍為(0,1)。 | 無 |
randomSeed | 否 | 隨機數種子,取值範圍為正整數。 | 系統自動分配 |
idColName | 否 | ID列(ID相同的資料不會被拆分) | 無 |
thresholdColName | 否 | 閾值所在列名,不支援String列。 | 無 |
threshold | 否 | 閾值。 | 無 |
lifecycle | 否 | 輸出表的生命週期,取值範圍為[1,3650]。 | 無 |
coreNum | 否 | 核心數量。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體(單位是兆),取值範圍為(1, 65536)。 | 系統自動分配 |