全部產品
Search
文件中心

Platform For AI:隨機採樣

更新時間:Jul 13, 2024

隨機採樣演算法組件按照給定的比例或者數目,對輸入進行隨機採樣,每次採樣是各自獨立的。

組件配置

您可以使用以下任意一種方式,配置隨機採樣組件參數。

方式一:可視化方式

在隨機採樣工作流程頁面配置組件參數。

頁簽

參數

描述

參數設定

採樣個數

取值為正整數。

採樣比例

取值為浮點數,範圍(0,1)

放回採樣

預設為不放回,勾選後變為放回。

隨機數種子

預設系統自動產生。

執行調優

核心數

取值為正整數,預設系統自動分配。

核記憶體配置

取值為正整數,單位為MB,範圍(1, 65536),預設系統自動分配。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

參數名稱

是否必選

參數描述

預設值

inputTableName

輸入表的名稱

inputTablePartitions

輸入表中,參與訓練的分區。支援以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級格式

說明

如果指定多個分區,則使用半形逗號(,)分隔。

outputTableName

輸出結果表

sampleSize

採樣個數

說明
  • 當sampleSize與sampleRatio都為空白時,系統會報錯。

  • 當sampleSize與sampleRatio都不為空白時,以sampleSize為準。

sampleRatio

採樣比例,浮點數,範圍(0,1)

replace

是否放回,BOOLEAN類型。

false

randomSeed

隨機數種子,取值範圍為正整數。

系統自動分配

lifecycle

輸出表的生命週期,取值範圍為[1,3650]

coreNum

計算的核心數目,取值範圍為正整數。

系統自動分配

memSizePerCore

每個核心的記憶體(單位是MB),取值範圍為(1, 65536)

系統自動分配