すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:階層化サンプリング

最終更新日:Dec 11, 2024

階層化サンプリングは、指定されたグループ化列に基づいてデータセットを複数の階層またはグループに分割し、各グループ内で独立してランダムサンプリングを実行するデータサンプリング方法です。 この方法は、各グループがサンプル内で適切に表されることを保証し、それによって、特に不均衡なデータ問題を扱うときに、サンプルの全体的な代表性を高めます。 これにより、層化サンプリングは、モデルトレーニングの精度と安定性を向上させるのに役立ちます。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページに階層化サンプリングコンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

フィールド設定

層化コラム

階層化に使用される列。

パラメーター設定

サンプルサイズ

値は正の整数である必要があります。

サンプリング分数

値は浮動小数点数でなければなりません。 有効値: (0,1)

ランダムシード

値はシステムによって自動的に生成されます。 デフォルト値は1234567です。

チューニング

コア

値は正の整数である必要があります。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

値は正の整数である必要があります。 有効値: (1,65536) デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name StratifiedSample
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DstrataColName="label"
    -DsampleSize="A:200,B:300,C:500"
    -DrandomSeed=1007
    -Dlifecycle=30;

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

なし

入力テーブルの名前。

inputTablePartitions

不可

すべてのパーティション

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • Partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションはコンマ (,) で区切ります。 たとえば、name1=value1,value2です。

outputTableName

なし

出力テーブルの名前。

strataColName

なし

階層化のキーとして使用される列の名前。

sampleSize

なし

サンプルの数。

  • 値が正の整数である場合、それは各階層におけるサンプルの数を示す。

  • 値が文字列の場合、文字列はstrata0:n0,strata1:n1の形式でなければなりません。 コロン (:) の後の値は、コロン (:) の前に指定された階層に対して構成する必要があるサンプルの数を示します。

説明
  • sampleSizeパラメーターとsampleRatioパラメーターの両方が空の場合、エラーが返されます。

  • sampleSizeパラメーターとsampleRatioパラメーターの両方が指定されている場合、sampleSizeパラメーターが優先されます。

sampleRatio

なし

サンプリング比率。

  • 値が数値の場合、0と1の間の浮動小数点数でなければならず、値は各階層のサンプリング比率を示します。

  • 値が文字列の場合、形式はstrata0:r0,strata1:r1でなければなりません。 コロン (:) の後の値は、コロン (:) の前に指定された階層のサンプリング比率を示します。

randomSeed

不可

123456

ランダムシード。 値は正の整数である必要があります。

lifecycle

なし

出力テーブルのライフサイクル。 有効な値: [1,3650]

coreNum

不可

システムによって決定される

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。

memSizePerCore

不可

システムによって決定される

各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。