すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ランダムサンプリング

最終更新日:Jul 22, 2024

ランダムサンプリングコンポーネントは、入力データをランダムにサンプリングします。 サンプルの割合または数を指定できます。 サンプルは互いに独立している。

コンポーネントの設定

次のいずれかの方法を使用して、ランダムサンプリングコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインページでコンポーネントパラメーターを設定します。

タブ

パラメーター

説明

パラメーター設定

サンプルサイズ

値は正の整数でなければなりません。

サンプリング分数

値は浮動小数点数でなければなりません。 有効値: (0,1)

サンプリングと交換

デフォルトでは、このチェックボックスは選択されていません。 このチェックボックスをオンにすると、置換によるサンプリングが有効になります。

ランダムシード

デフォルトでは、システムが値を決定します。

チューニング

コア

値は正の整数でなければなりません。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

値は正の整数でなければなりません。 単位:MB。 有効値: (1,65536) デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

不可

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションはコンマ (,) で区切ります

デフォルト値なし

outputTableName

出力テーブルの名前。

デフォルト値なし

sampleSize

不可

サンプルの数。

説明
  • sampleSizeパラメーターとsampleRatioパラメーターの両方が空の場合、エラーが返されます。

  • sampleSizeパラメーターとsampleRatioパラメーターの両方が指定されている場合、sampleSizeパラメーターが優先されます。

デフォルト値なし

sampleRatio

不可

サンプリング比率。 値は浮動小数点数でなければなりません。 有効値: (0,1)

デフォルト値なし

replace

不可

置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。

false

randomSeed

不可

ランダムシード。 値は正の整数でなければなりません。

システムによって決定される

ライフサイクルの設定 (Set lifecycle)

不可

出力テーブルのライフサイクル。 有効な値: [1,3650]

デフォルト値なし

coreNum

不可

コンピューティングで使用されるコアの数。 値は正の整数でなければなりません。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。

システムによって決定される