重み付きサンプリングコンポーネントは、重み付き列の値に基づいてサンプリングデータを生成します。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。 重み付けされた列は、それらの値に基づいてサンプリングされる。 例えば、2つの重み付けされた列の値が1.2及び1.0である場合、値1.2を有する重み付けされた列が優先的にサンプリングされる。
コンポーネントの設定
次のいずれかの方法を使用して、重み付きサンプリングコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。
タブ | パラメーター | 説明 |
パラメーター設定 | サンプルサイズ | 値は正の整数でなければなりません。 |
サンプリング分数 | 値は浮動小数点数でなければなりません。 有効値: (0,1) | |
サンプリングと交換 | デフォルトでは、このチェックボックスは選択されていません。 このチェックボックスをオンにすると、置換によるサンプリングが有効になります。 | |
重み列 | 重み付けされた列。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。 各値は、既存のレコードの重みを表します。 正規化は必要ありません。 | |
ランダムシード | デフォルトでは、システムが値を決定します。 | |
チューニング | コア | 値は正の整数でなければなりません。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 値は正の整数でなければなりません。 有効値: (1,65536) デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name WeightedSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-DprobCol="previous"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションはコンマ (,) で区切ります | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
sampleSize | 不可 | サンプルの数。 説明
| デフォルト値なし |
sampleRatio | 不可 | サンプリング比率。 値は浮動小数点数でなければなりません。 有効な値: (0,1) 。 | デフォルト値なし |
probCol | 可 | 重み付けされた列。 各値は、既存のレコードの重みを表します。 正規化は必要ありません。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。 | デフォルト値なし |
replace | 不可 | 置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。 | falseは、置換によるサンプリングが無効になっていることを示します。 |
randomSeed | 不可 | ランダムシード。 値は正の整数でなければなりません。 | システムによって決定される |
ライフサイクルの設定 (Set lifecycle) | 不可 | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 | デフォルト値なし |
coreNum | 不可 | コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。 | システムによって決定される |