隨機採樣 - Platform For AI

隨機採樣演算法是一種從輸入資料集中提取樣本的技術，依據指定的比例或數量，隨機播放樣本以產生子集。每次採樣過程都是獨立的，確保每個樣本被選中的機率相等且不受其他樣本選擇的影響。該方法常用於建立訓練和測試資料集，以保證模型評估的無偏性和代表性，特別適用於大規模資料處理。

配置組件

方式一：可視化方式

在Designer工作流程頁面添加隨機採樣組件，並在介面右側配置相關參數：

參數類型	參數	描述
參數設定	採樣個數	取值為正整數。
	採樣比例	取值為浮點數，範圍(0,1)。
	放回採樣	在隨機採樣過程中，每次選擇樣本後，將其放回原資料集，使得該樣本在後續的採樣中仍然有可能被再次選擇。
	隨機數種子	預設系統自動產生。
執行調優	核心數	取值為正整數，預設系統自動分配。
執行調優	核記憶體配置	取值為正整數，單位為MB，範圍(1, 65536)，預設系統自動分配。

方式二：PAI命令方式

使用PAI命令配置隨機採樣組件參數。您可以使用SQL指令碼組件進行PAI命令調用，詳情請參見情境4：在SQL指令碼組件中執行PAI命令。

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

參數名稱	是否必選	預設值	參數描述
inputTableName	是	無	輸入表的名稱。
inputTablePartitions	否	無	輸入表中，參與訓練的分區。支援以下格式： partition_name=value name1=value1/name2=value2：多級格式說明指定多個分區時，分區之間使用英文逗號（,）分隔，例如name1=value1,value2。
outputTableName	是	無	輸出結果表。
sampleSize	否	無	採樣個數。說明當sampleSize與sampleRatio都為空白時，系統會報錯。當sampleSize與sampleRatio都不為空白時，以sampleSize為準。
sampleRatio	否	無	採樣比例，浮點數，範圍(0,1)。
replace	否	false	是否放回，BOOLEAN類型。
randomSeed	否	系統自動分配	隨機數種子，取值範圍為正整數。
lifecycle	否	無	輸出表的生命週期，取值範圍為[1,3650]。
coreNum	否	系統自動分配	計算的核心數目，取值範圍為正整數。
memSizePerCore	否	系統自動分配	每個核心的記憶體（單位是MB），取值範圍為(1, 65536)。