全部產品
Search
文件中心

Platform For AI:隨機採樣

更新時間:Nov 28, 2024

隨機採樣演算法是一種從輸入資料集中提取樣本的技術,依據指定的比例或數量,隨機播放樣本以產生子集。每次採樣過程都是獨立的,確保每個樣本被選中的機率相等且不受其他樣本選擇的影響。該方法常用於建立訓練和測試資料集,以保證模型評估的無偏性和代表性,特別適用於大規模資料處理。

配置組件

方式一:可視化方式

在Designer工作流程頁面添加隨機採樣組件,並在介面右側配置相關參數:

參數類型

參數

描述

參數設定

採樣個數

取值為正整數。

採樣比例

取值為浮點數,範圍(0,1)

放回採樣

在隨機採樣過程中,每次選擇樣本後,將其放回原資料集,使得該樣本在後續的採樣中仍然有可能被再次選擇。

隨機數種子

預設系統自動產生。

執行調優

核心數

取值為正整數,預設系統自動分配。

核記憶體配置

取值為正整數,單位為MB,範圍(1, 65536),預設系統自動分配。

方式二:PAI命令方式

使用PAI命令配置隨機採樣組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

參數名稱

是否必選

預設值

參數描述

inputTableName

輸入表的名稱。

inputTablePartitions

輸入表中,參與訓練的分區。支援以下格式:

  • partition_name=value

  • name1=value1/name2=value2:多級格式

說明

指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。

outputTableName

輸出結果表。

sampleSize

採樣個數。

說明
  • 當sampleSize與sampleRatio都為空白時,系統會報錯。

  • 當sampleSize與sampleRatio都不為空白時,以sampleSize為準。

sampleRatio

採樣比例,浮點數,範圍(0,1)

replace

false

是否放回,BOOLEAN類型。

randomSeed

系統自動分配

隨機數種子,取值範圍為正整數。

lifecycle

輸出表的生命週期,取值範圍為[1,3650]

coreNum

系統自動分配

計算的核心數目,取值範圍為正整數。

memSizePerCore

系統自動分配

每個核心的記憶體(單位是MB),取值範圍為(1, 65536)