Designer提供了拆分組件,用於對資料進行隨機拆分以產生訓練和測試集,支援按比例拆分和按閾值拆分兩種拆分方式。
組件配置
您可以使用以下任意一種方式配置拆分組件參數,拆分後按照配置產生2個資料表。
方式一:可視化方式
進入Designer工作流程頁面,在左側組件列表中搜尋拆分組件,將其拖入畫布,串連好上遊節點後,單擊拆分組件配置組件參數。
如果兩種拆分方式均配置了參數,則按閾值拆分方式優先順序高於按比例拆分。
頁簽 | 參數 | 描述 | |
參數設定 | 拆分方式:按比例拆分 | 切分比例 | 輸出表1占原資料的比例,取值範圍(0,1)。 |
隨機數種子 | 隨機種子數可以固定隨機產生器的狀態,使得在相同種子下的多次運行能夠得到相同的劃分結果。不配置時系統預設產生。 | ||
ID列(ID列相同的不會被拆分) | 選中進階選項時可配置。 僅支援選擇單列,ID列相同的行資料不會被拆分,會被全量隨機分配到輸出表1或輸出表2中。 | ||
拆分方式:按閾值拆分 | 閾值列 | 對該列資料按閾值拆分,不支援String列。 | |
閾值 | 對閾值列按照閾值進行全量拆分,輸出表1中閾值列值均小於閾值,輸出表2中的均大於或等於閾值。 | ||
執行調優 | 計算核心數 | 系統根據輸入資料量,自動分配訓練的執行個體數量。預設自動選擇。 | |
每個核記憶體數 | 系統根據輸入資料量,自動分配記憶體。單位為MB。預設自動選擇。 |
方式二:PAI命令方式
您可以使用SQL指令碼組件,取消選中是否由系統添加Create Table語句,輸入如下指令碼,通過PAI命令方式配置該組件參數。詳情請參見SQL指令碼。
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;
不支援同時設定按比例拆分方式和按閾值拆分方式參數。
參數類別 | 參數名稱 | 是否必填 | 參數描述 | 預設值 |
通用參數 | inputTableName | 是 | 輸入表的表名。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支援以下格式:
說明 如果指定多個分區,則使用英文逗號(,)分隔。 | 所有分區 | |
output1TableName | 是 | 輸出表1。 | 無 | |
output1TablePartition | 否 | 輸出表1分區名。 | 輸出表1為非分區表 | |
output2TableName | 是 | 輸出表2。 | 無 | |
output2TablePartition | 否 | 輸出表2分區名。 | 輸出表2為非分區表 | |
lifecycle | 否 | 輸出表的生命週期,取值範圍為[1,3650]。 | 無 | |
coreNum | 否 | 計算核心數,屬於執行調優參數。系統根據輸入資料量自動分配訓練的執行個體數量。 | 預設自動選擇 | |
memSizePerCore | 否 | 每個核記憶體數(單位MB),屬於執行調優參數。系統根據輸入資料量自動分配記憶體,取值範圍為(1, 65536)。 | 預設自動選擇 | |
按比例拆分方式參數 | fraction | 是 | 切分至輸出表1的資料比例,取值範圍為(0,1)。 | 無 |
randomSeed | 否 | 隨機數種子,取值範圍為正整數。 | 系統預設產生 | |
idColName | 否 | ID列。僅支援選擇單列,ID列相同的行資料不會被拆分,會被全量隨機分配到輸出表1或輸出表2中。 | 無 | |
按閾值拆分方式參數 | thresholdColName | 是 | 閾值列。對該列資料按閾值拆分,不支援String列。 | 無 |
threshold | 是 | 閾值。對閾值列按照閾值進行全量拆分,輸出表1中閾值列值均小於閾值,輸出表2中的均大於或等於閾值。 | 無 |