階層化サンプリングは、指定されたグループ化列に基づいてデータセットを複数の階層またはグループに分割し、各グループ内で独立してランダムサンプリングを実行するデータサンプリング方法です。 この方法は、各グループがサンプル内で適切に表されることを保証し、それによって、特に不均衡なデータ問題を扱うときに、サンプルの全体的な代表性を高めます。 これにより、層化サンプリングは、モデルトレーニングの精度と安定性を向上させるのに役立ちます。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページに階層化サンプリングコンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | 層化コラム | 階層化に使用される列。 |
パラメーター設定 | サンプルサイズ | 値は正の整数である必要があります。 |
サンプリング分数 | 値は浮動小数点数でなければなりません。 有効値: (0,1) | |
ランダムシード | 値はシステムによって自動的に生成されます。 デフォルト値は1234567です。 | |
チューニング | コア | 値は正の整数である必要があります。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 値は正の整数である必要があります。 有効値: (1,65536) デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name StratifiedSample
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DstrataColName="label"
-DsampleSize="A:200,B:300,C:500"
-DrandomSeed=1007
-Dlifecycle=30;
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | 不可 | すべてのパーティション | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションはコンマ (,) で区切ります。 たとえば、name1=value1,value2です。 |
outputTableName | 可 | なし | 出力テーブルの名前。 |
strataColName | 可 | なし | 階層化のキーとして使用される列の名前。 |
sampleSize | ✕ | なし | サンプルの数。
説明
|
sampleRatio | ✕ | なし | サンプリング比率。
|
randomSeed | 不可 | 123456 | ランダムシード。 値は正の整数である必要があります。 |
lifecycle | ✕ | なし | 出力テーブルのライフサイクル。 有効な値: [1,3650] 。 |
coreNum | 不可 | システムによって決定される | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 |
memSizePerCore | 不可 | システムによって決定される | 各コアのメモリサイズ。 有効値: (1,65536) 単位:MB。 |