すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ビニング

最終更新日:Jul 22, 2024

ビニングコンポーネントは、フィーチャの離散化に使用されます。 特徴離散化は、連続データを複数の離散区間に変換するプロセスである。 ビニングコンポーネントは、等周波数ビニング、等幅ビニング、および自動ビニングをサポートします。

コンポーネント設定

次のいずれかの方法を使用して、Binningコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Binningコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールドの設定

フィーチャー列

STRING、BIGINT、およびDOUBLE型の列がサポートされています。

ラベル列

このパラメーターは、バイナリ分類にのみ必要です。

正の値

このパラメーターは、Label Columnパラメーターが指定されている場合にのみ有効です。

ビニングパラメータソース

有効な値: [パラメーター設定] および [手動ビニング] または [カスタムJSON]

未選択のフィーチャー列を予約

このパラメーターは、Binning parameter SourceパラメーターをManual BinningまたはCustom JSONに設定した場合にのみ有効です。 [選択されていないフィーチャ列の保存] パラメーターを [はい] に設定した場合、[フィーチャ列] パラメーターに指定されていない列は出力で変更されません。 それ以外の場合、Feature columnsパラメーターに指定されていない列は出力から削除されます。

ビニングと制約JSONコードのアップロード

このパラメーターは、ビニングパラメータソースパラメーターを手動ビニングまたはカスタムJSONに設定した場合にのみ有効です。

パラメーター設定

ビン

このパラメーターを10に設定すると、連続フィーチャは10個の離散間隔に変換されます。

カスタムビン

特定の列のビンの数を指定できます。 このパラメーターの設定は、Binsパラメーターの設定よりも優先されます。 選択した列に特定の列が含まれていない場合、この列はビニングでも使用されます。 例えば、列col0およびcol1がデータビニングのために選択される。 col0列に対してカスタマイズされたビンの数は3であり、col2列に対してカスタマイズされたビンの数は5である。 Binsパラメーターが10に設定されている場合、col0:3、col1:10、col2:5に基づいてビニングが実行されます。

このパラメーターは、列名1: ビン数、列名2: ビン数の形式で指定します。

カスタム離散値カウントしきい値

このパラメーターはcol0:3形式で指定します。

インターバルタイプ

有効な値: Left-open, Right-closedおよびLeft-closed, Right-open

ビニングモード

有効な値: [Equal Frequency][Equal Width] 、および [Automatic Binning]

離散値カウントしきい値

値がこのしきい値より小さい場合、その値はelseビンに分配される。

チューニング

コア

コアの数。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name binning
    -project algo_public
    -DinputTableName=input
    -DoutputTableName=output

パラメーター

説明

必須

デフォルト値

inputTableName

入力テーブルの名前。

Yes

None

outputTableName

出力テーブルの名前。

Yes

None

selectedColNames

ビニング用に入力テーブルから選択された列。

No

ラベル列を除くすべての列 (ラベル列が存在しない場合は、すべての列が選択されます) 。

labelColName

ラベル列。

No

None

validTableName

検証テーブルの名前。 このパラメーターは、binningMethodパラメーターがautoに設定されている場合に必要です。

No

ヌル

validTablePartitions

検証テーブルから選択されたパーティション。

No

フルテーブル

inputTablePartitions

入力テーブルから選択されたパーティション。

No

フルテーブル

inputBinTableName

入力ビニングテーブル。

No

None

selectedBinColNames

入力ビニングテーブルから選択された列。

No

ヌル

positiveLabel

サンプルが陽性サンプルかどうかを指定します。

いいえ

1

nDivide

ビンの数。 このパラメーターの値は正の整数でなければなりません。

No

10

colsNDivide

特定の列のビンの数。 このパラメーターは、列名1: ビン数、列名2: ビン数の形式で指定します。 例: col0:3,col2:5 colsNDivideパラメーターに指定された列がselectedColNamesパラメーターに指定された列に含まれていない場合、その列はビニングでも使用されます。 たとえば、selectedColNamesパラメーターはcol0,col1に設定され、colsNDivideパラメーターはcol0:3,col2:5に設定され、nDivideパラメーターは10に設定されます。 この場合、col0:3、col1:10、col2:5に基づいてビニングが行われる。

No

ヌル

isLeftOpen

intervalタイプ。 有効な値:

  • {true}: left-open, right-closed interval

  • {false}: left-closed, right-open interval

No

true

stringThreshold

elseビンの離散値のしきい値。

No

None

colsStringThreshold

特定の列のしきい値。 このパラメーターは、colsNDivideパラメーターと同じ形式で指定します。

No

ヌル

binningMethod

ビニングモード。 有効な値:

  • quantile: 等しい周波数ビニングを示します。

  • bucket: 等しい幅のビニングを示します。

  • auto: システムが自動的にビニングモードを選択することを示します。

No

quantile

ライフサイクルの設定 (Set lifecycle)

出力テーブルのライフサイクル。 このパラメーターの値は正の整数でなければなりません。

No

None

coreNum

コアの数。 このパラメーターの値は正の整数でなければなりません。

No

システムによって決定される

memSizePerCore

各コアのメモリサイズ。 このパラメーターの値は正の整数でなければなりません。

No

システムによって決定される

ビニングコンポーネントは、スコアカードトレーニングコンポーネントと共に使用する必要があります。 スコアカードトレーニング中、ビニングコンポーネントは、連続フィーチャを複数の離散ダミー変数に変換して、フィーチャエンジニアリングを実現します。 ダミー変数の重みに制約を指定できます。 以下の情報は、制約について説明します。

  • 昇順: 昇順のインデックス値に基づいて、フィーチャのダミー変数に重みを追加する必要があります。 これは、インデックス値が大きいダミー変数ほど重みが大きいことを示している。

  • 降順: 降順のインデックス値に基づいて、フィーチャのダミー変数に重みを追加する必要があります。 これは、インデックス値が大きいダミー変数ほど重みが小さいことを示している。

  • 同じ重み: フィーチャの2つのダミー変数の重みは同じでなければなりません。

  • Zero weight: ダミー変数の重みは0でなければなりません。

  • 特定の重み: ダミー変数の重みは、特定の浮動小数点値でなければなりません。

  • WOE順序: 重みは、証拠の重み (WOE) 値に基づいて、昇順で特徴のダミー変数に追加する必要があります。 これは、WOE値が大きいダミー変数ほど重みが大きいことを示している。

結果のプレゼンテーション

  1. ビニングコンポーネントを含むワークフローの実行が完了したら、キャンバスでビニングコンポーネントを右クリックし、ビニングを選択します。

  2. 変数リストページで、各変数の [ビン][タイプ] 、および [IV] 情報を確認できます。 変数情報の例を次の図に示します。 Binning variables

  3. f1などの変数の名前をクリックして、変数のビニング詳細ページに移動します。 次の図は、f1のビニング詳細ページを示しています。

    [マージ] または [分割] をクリックすると、ビニングデータをマージまたは分割できます。 ビンの制約を指定することもできます。

    説明

    指定された制約は、後続のスコアカードトレーニングコンポーネントでのみ有効です。 スコアカードトレーニングコンポーネントNoneでビニングコンポーネントを使用する場合、これらの制約は無視できます。

    Binning details