階層化サンプリングコンポーネントは、階層化列の値に基づいて入力データを階層化し、各階層のデータをランダムにサンプリングします。
コンポーネントの設定
次のいずれかの方法を使用して、階層化サンプリングコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | 層化コラム | 階層化に使用される列。 |
パラメーター設定 | サンプルサイズ | 値は正の整数でなければなりません。 |
サンプリング分数 | 値は浮動小数点数でなければなりません。 有効値: (0,1) | |
ランダムシード | 値はシステムによって自動的に生成されます。 デフォルト値は1234567です。 | |
チューニング | コア | 値は正の整数でなければなりません。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 値は正の整数でなければなりません。 有効値: (1,65536) デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name StratifiedSample
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DstrataColName="label"
-DsampleSize="A:200,B:300,C:500"
-DrandomSeed=1007
-Dlifecycle=30;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションはコンマ (,) で区切ります | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
strataColName | 可 | 階層化のキーとして使用される列の名前。 | デフォルト値なし |
sampleSize | 不可 | サンプルの数。
説明
| デフォルト値なし |
sampleRatio | 不可 | サンプリング比率。
| デフォルト値なし |
randomSeed | 不可 | ランダムシード。 値は正の整数でなければなりません。 | 123456 |
ライフサイクルの設定 (Set lifecycle) | 不可 | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 | デフォルト値なし |
coreNum | 不可 | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。 | システムによって決定される |