すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:重み付けサンプリング

最終更新日:Jul 22, 2024

重み付きサンプリングコンポーネントは、重み付き列の値に基づいてサンプリングデータを生成します。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。 重み付けされた列は、それらの値に基づいてサンプリングされる。 例えば、2つの重み付けされた列の値が1.2及び1.0である場合、値1.2を有する重み付けされた列が優先的にサンプリングされる。

コンポーネントの設定

次のいずれかの方法を使用して、重み付きサンプリングコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。

タブ

パラメーター

説明

パラメーター設定

サンプルサイズ

値は正の整数でなければなりません。

サンプリング分数

値は浮動小数点数でなければなりません。 有効値: (0,1)

サンプリングと交換

デフォルトでは、このチェックボックスは選択されていません。 このチェックボックスをオンにすると、置換によるサンプリングが有効になります。

重み列

重み付けされた列。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。 各値は、既存のレコードの重みを表します。 正規化は必要ありません。

ランダムシード

デフォルトでは、システムが値を決定します。

チューニング

コア

値は正の整数でなければなりません。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

値は正の整数でなければなりません。 有効値: (1,65536) デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name WeightedSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -DprobCol="previous"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションはコンマ (,) で区切ります

すべてのパーティション

outputTableName

出力テーブルの名前。

デフォルト値なし

sampleSize

不可

サンプルの数。

説明
  • sampleSizeパラメーターとsampleRatioパラメーターの両方が空の場合、エラーが返されます。

  • sampleSizeパラメーターとsampleRatioパラメーターの両方が指定されている場合、sampleSizeパラメーターが優先されます。

デフォルト値なし

sampleRatio

不可

サンプリング比率。 値は浮動小数点数でなければなりません。 有効な値: (0,1) 。

デフォルト値なし

probCol

重み付けされた列。 各値は、既存のレコードの重みを表します。 正規化は必要ありません。 重み付き列の値は、DOUBLE型またはBIGINT型である必要があります。

デフォルト値なし

replace

不可

置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。

falseは、置換によるサンプリングが無効になっていることを示します。

randomSeed

不可

ランダムシード。 値は正の整数でなければなりません。

システムによって決定される

ライフサイクルの設定 (Set lifecycle)

不可

出力テーブルのライフサイクル。 有効な値: [1,3650]

デフォルト値なし

coreNum

不可

コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。

システムによって決定される