ランダムサンプリングは、入力データセットからサンプルを抽出するための手法です。 特定の比率または量に基づいてサンプルをランダムに選択してサブセットを生成することが含まれます。 各サンプリングプロセスは独立しており、各サンプルが選択される確率が等しく、1つのサンプルの選択が他のサンプルの選択に影響を与えないことを保証します。 この方法は、トレーニングおよびテストデータセットを作成するために一般的に使用され、モデル評価の公平性と代表性を保証します。特に、大規模なデータ処理に適しています。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページに [ランダムサンプリング] コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
パラメーター設定 | サンプルサイズ | 値は正の整数である必要があります。 |
サンプリング分数 | 値は浮動小数点数でなければなりません。 有効値: (0,1) | |
サンプリングと交換 | ランダムサンプリングプロセス中、選択された各サンプルは元のデータセットに戻され、後続のサンプリングにおいてそのサンプルが再び選択されることを可能にします。 | |
ランダムシード | デフォルトでは、システムが値を決定します。 | |
チューニング | コア | 値は正の整数である必要があります。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 値は正の整数である必要があります。 単位:MB。 有効値: (1,65536) デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | ✕ | なし | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションはコンマ (,) で区切ります。 たとえば、name1=value1,value2です。 |
outputTableName | 可 | なし | 出力テーブルの名前。 |
sampleSize | ✕ | なし | サンプルの数。 説明
|
sampleRatio | ✕ | なし | サンプリング比率。 値は浮動小数点数でなければなりません。 有効値: (0,1) |
replace | 不可 | false | 置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。 |
randomSeed | 不可 | システムによって決定される | ランダムシード。 値は正の整数である必要があります。 |
lifecycle | ✕ | なし | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 |
coreNum | 不可 | システムによって決定される | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 |
memSizePerCore | 不可 | システムによって決定される | 各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。 |