すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ランダムサンプリング

最終更新日:Dec 11, 2024

ランダムサンプリングは、入力データセットからサンプルを抽出するための手法です。 特定の比率または量に基づいてサンプルをランダムに選択してサブセットを生成することが含まれます。 各サンプリングプロセスは独立しており、各サンプルが選択される確率が等しく、1つのサンプルの選択が他のサンプルの選択に影響を与えないことを保証します。 この方法は、トレーニングおよびテストデータセットを作成するために一般的に使用され、モデル評価の公平性と代表性を保証します。特に、大規模なデータ処理に適しています。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページに [ランダムサンプリング] コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

パラメーター設定

サンプルサイズ

値は正の整数である必要があります。

サンプリング分数

値は浮動小数点数でなければなりません。 有効値: (0,1)

サンプリングと交換

ランダムサンプリングプロセス中、選択された各サンプルは元のデータセットに戻され、後続のサンプリングにおいてそのサンプルが再び選択されることを可能にします。

ランダムシード

デフォルトでは、システムが値を決定します。

チューニング

コア

値は正の整数である必要があります。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

値は正の整数である必要があります。 単位:MB。 有効値: (1,65536) デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

なし

入力テーブルの名前。

inputTablePartitions

なし

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションはコンマ (,) で区切ります。 たとえば、name1=value1,value2です。

outputTableName

なし

出力テーブルの名前。

sampleSize

なし

サンプルの数。

説明
  • sampleSizeパラメーターとsampleRatioパラメーターの両方が空の場合、エラーが返されます。

  • sampleSizeパラメーターとsampleRatioパラメーターの両方が指定されている場合、sampleSizeパラメーターが優先されます。

sampleRatio

なし

サンプリング比率。 値は浮動小数点数でなければなりません。 有効値: (0,1)

replace

不可

false

置換によるサンプリングを有効にするかどうかを指定します。 値はBOOLEAN型でなければなりません。

randomSeed

不可

システムによって決定される

ランダムシード。 値は正の整数である必要があります。

lifecycle

なし

出力テーブルのライフサイクル。 有効な値: [1,3650]

coreNum

不可

システムによって決定される

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。

memSizePerCore

不可

システムによって決定される

各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。