隨機採樣演算法是一種從輸入資料集中提取樣本的技術,依據指定的比例或數量,隨機播放樣本以產生子集。每次採樣過程都是獨立的,確保每個樣本被選中的機率相等且不受其他樣本選擇的影響。該方法常用於建立訓練和測試資料集,以保證模型評估的無偏性和代表性,特別適用於大規模資料處理。
配置組件
方式一:可視化方式
在Designer工作流程頁面添加隨機採樣組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
參數設定 | 採樣個數 | 取值為正整數。 |
採樣比例 | 取值為浮點數,範圍(0,1)。 | |
放回採樣 | 在隨機採樣過程中,每次選擇樣本後,將其放回原資料集,使得該樣本在後續的採樣中仍然有可能被再次選擇。 | |
隨機數種子 | 預設系統自動產生。 | |
執行調優 | 核心數 | 取值為正整數,預設系統自動分配。 |
核記憶體配置 | 取值為正整數,單位為MB,範圍(1, 65536),預設系統自動分配。 |
方式二:PAI命令方式
使用PAI命令配置隨機採樣組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
參數名稱 | 是否必選 | 預設值 | 參數描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 無 | 輸入表中,參與訓練的分區。支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔,例如name1=value1,value2。 |
outputTableName | 是 | 無 | 輸出結果表。 |
sampleSize | 否 | 無 | 採樣個數。 說明
|
sampleRatio | 否 | 無 | 採樣比例,浮點數,範圍(0,1)。 |
replace | 否 | false | 是否放回,BOOLEAN類型。 |
randomSeed | 否 | 系統自動分配 | 隨機數種子,取值範圍為正整數。 |
lifecycle | 否 | 無 | 輸出表的生命週期,取值範圍為[1,3650]。 |
coreNum | 否 | 系統自動分配 | 計算的核心數目,取值範圍為正整數。 |
memSizePerCore | 否 | 系統自動分配 | 每個核心的記憶體(單位是MB),取值範圍為(1, 65536)。 |