ランダムサンプリングコンポーネントは、入力データをランダムにサンプリングします。 サンプルの割合または数を指定できます。 サンプルは互いに独立している。
コンポーネントの設定
次のいずれかの方法を使用して、ランダムサンプリングコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
パラメーター設定 | サンプルサイズ | 値は正の整数でなければなりません。 |
サンプリング分数 | 値は浮動小数点数でなければなりません。 有効値: (0,1) | |
サンプリングと交換 | デフォルトでは、このチェックボックスは選択されていません。 このチェックボックスをオンにすると、置換によるサンプリングが有効になります。 | |
ランダムシード | デフォルトでは、システムが値を決定します。 | |
チューニング | コア | 値は正の整数でなければなりません。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 値は正の整数でなければなりません。 単位:MB。 有効値: (1,65536) デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションはコンマ (,) で区切ります | デフォルト値なし |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
sampleSize | 不可 | サンプルの数。 説明
| デフォルト値なし |
sampleRatio | 不可 | サンプリング比率。 値は浮動小数点数でなければなりません。 有効値: (0,1) | デフォルト値なし |
replace | 不可 | 置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。 | false |
randomSeed | 不可 | ランダムシード。 値は正の整数でなければなりません。 | システムによって決定される |
ライフサイクルの設定 (Set lifecycle) | 不可 | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 | デフォルト値なし |
coreNum | 不可 | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。 | システムによって決定される |