全部產品
Search
文件中心

Platform For AI:拆分

更新時間:Nov 19, 2024

Designer提供了拆分組件,用於對資料進行隨機拆分以產生訓練和測試集,支援按比例拆分和按閾值拆分兩種拆分方式。

組件配置

您可以使用以下任意一種方式配置拆分組件參數,拆分後按照配置產生2個資料表。

方式一:可視化方式

進入Designer工作流程頁面,在左側組件列表中搜尋拆分組件,將其拖入畫布,串連好上遊節點後,單擊拆分組件配置組件參數。

說明

如果兩種拆分方式均配置了參數,則按閾值拆分方式優先順序高於按比例拆分。

頁簽

參數

描述

參數設定

拆分方式:按比例拆分

切分比例

輸出表1占原資料的比例,取值範圍(0,1)

隨機數種子

隨機種子數可以固定隨機產生器的狀態,使得在相同種子下的多次運行能夠得到相同的劃分結果。不配置時系統預設產生。

ID列(ID列相同的不會被拆分)

選中進階選項時可配置。

僅支援選擇單列,ID列相同的行資料不會被拆分,會被全量隨機分配到輸出表1輸出表2中。

拆分方式:按閾值拆分

閾值列

對該列資料按閾值拆分,不支援String列。

閾值

對閾值列按照閾值進行全量拆分,輸出表1中閾值列值均小於閾值,輸出表2中的均大於或等於閾值。

執行調優

計算核心數

系統根據輸入資料量,自動分配訓練的執行個體數量。預設自動選擇。

每個核記憶體數

系統根據輸入資料量,自動分配記憶體。單位為MB。預設自動選擇。

方式二:PAI命令方式

您可以使用SQL指令碼組件,取消選中是否由系統添加Create Table語句,輸入如下指令碼,通過PAI命令方式配置該組件參數。詳情請參見SQL指令碼

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;
說明

不支援同時設定按比例拆分方式和按閾值拆分方式參數。

參數類別

參數名稱

是否必填

參數描述

預設值

通用參數

inputTableName

輸入表的表名。

inputTablePartitions

輸入表中,參與訓練的分區。支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級格式

說明

如果指定多個分區,則使用英文逗號(,)分隔。

所有分區

output1TableName

輸出表1。

output1TablePartition

輸出表1分區名。

輸出表1為非分區表

output2TableName

輸出表2。

output2TablePartition

輸出表2分區名。

輸出表2為非分區表

lifecycle

輸出表的生命週期,取值範圍為[1,3650]

coreNum

計算核心數,屬於執行調優參數。系統根據輸入資料量自動分配訓練的執行個體數量。

預設自動選擇

memSizePerCore

每個核記憶體數(單位MB),屬於執行調優參數。系統根據輸入資料量自動分配記憶體,取值範圍為(1, 65536)

預設自動選擇

按比例拆分方式參數

fraction

切分至輸出表1的資料比例,取值範圍為(0,1)

randomSeed

隨機數種子,取值範圍為正整數。

系統預設產生

idColName

ID列。僅支援選擇單列,ID列相同的行資料不會被拆分,會被全量隨機分配到輸出表1或輸出表2中。

按閾值拆分方式參數

thresholdColName

閾值列。對該列資料按閾值拆分,不支援String列。

threshold

閾值。對閾值列按照閾值進行全量拆分,輸出表1中閾值列值均小於閾值,輸出表2中的均大於或等於閾值。