全部產品
Search
文件中心

Platform For AI:拆分

更新時間:Jul 13, 2024

本文為您介紹Designer提供的拆分演算法。拆分是對資料進行隨機拆分,用於產生訓練和測試集。

組件配置

您可以使用以下任意一種方式,配置拆分組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

參數設定

拆分方式

  • 按比例拆分

  • 按閾值拆分

切分比例

取值範圍為(0,1)

隨機數種子

系統預設產生。

ID列(ID列相同的不會被拆分)

ID列中,內容相同的行資料不會被拆分,會被全量隨機分配到輸出表1輸出表2中。

說明

勾選進階選項時展示,僅支援選擇單列。

閾值列

選擇某個列名,對該列內容按閾值拆分,不支援String列。

閾值

參考閾值列內容,配置拆分閾值。輸出表1中的資料均小於閾值。輸出表2中的資料均大於或等於閾值。

重要

您在使用按閾值拆分方式時,請先清空按比例拆分方式配置的切分比例欄位內容。

執行調優

計算核心數

系統根據輸入資料量,自動分配訓練的執行個體數量。

每個核記憶體數

系統根據輸入資料量,自動分配記憶體。單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

參數名稱

是否必選

參數描述

預設值

inputTableName

輸入表的表名。

inputTablePartitions

輸入表中,參與訓練的分區。支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級格式

說明

如果指定多個分區,則使用英文逗號(,)分隔。

所有分區

output1TableName

輸出結果表1。

output1TablePartition

輸出結果表1分區名。

輸出表1為非分區表

output2TableName

輸出結果表2。

output2TablePartition

輸出結果表2分區名。

輸出表2為非分區表

fraction

切分至輸出表1的資料比例,取值範圍為(0,1)

randomSeed

隨機數種子,取值範圍為正整數。

系統自動分配

idColName

ID列(ID相同的資料不會被拆分)

thresholdColName

閾值所在列名,不支援String列。

threshold

閾值。

lifecycle

輸出表的生命週期,取值範圍為[1,3650]

coreNum

核心數量。

系統自動分配

memSizePerCore

每個核心的記憶體(單位是兆),取值範圍為(1, 65536)

系統自動分配