ビニングコンポーネントは、フィーチャの離散化に使用されます。 特徴離散化は、連続データを複数の離散区間に変換するプロセスである。 ビニングコンポーネントは、等周波数ビニング、等幅ビニング、および自動ビニングをサポートします。
コンポーネント設定
次のいずれかの方法を使用して、Binningコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Binningコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | フィーチャー列 | STRING、BIGINT、およびDOUBLE型の列がサポートされています。 |
ラベル列 | このパラメーターは、バイナリ分類にのみ必要です。 | |
正の値 | このパラメーターは、Label Columnパラメーターが指定されている場合にのみ有効です。 | |
ビニングパラメータソース | 有効な値: [パラメーター設定] および [手動ビニング] または [カスタムJSON] 。 | |
未選択のフィーチャー列を予約 | このパラメーターは、Binning parameter SourceパラメーターをManual BinningまたはCustom JSONに設定した場合にのみ有効です。 [選択されていないフィーチャ列の保存] パラメーターを [はい] に設定した場合、[フィーチャ列] パラメーターに指定されていない列は出力で変更されません。 それ以外の場合、Feature columnsパラメーターに指定されていない列は出力から削除されます。 | |
ビニングと制約JSONコードのアップロード | このパラメーターは、ビニングパラメータソースパラメーターを手動ビニングまたはカスタムJSONに設定した場合にのみ有効です。 | |
パラメーター設定 | ビン | このパラメーターを10に設定すると、連続フィーチャは10個の離散間隔に変換されます。 |
カスタムビン | 特定の列のビンの数を指定できます。 このパラメーターの設定は、Binsパラメーターの設定よりも優先されます。 選択した列に特定の列が含まれていない場合、この列はビニングでも使用されます。 例えば、列col0およびcol1がデータビニングのために選択される。 col0列に対してカスタマイズされたビンの数は3であり、col2列に対してカスタマイズされたビンの数は5である。 Binsパラメーターが10に設定されている場合、col0:3、col1:10、col2:5に基づいてビニングが実行されます。 このパラメーターは、列名1: ビン数、列名2: ビン数の形式で指定します。 | |
カスタム離散値カウントしきい値 | このパラメーターはcol0:3形式で指定します。 | |
インターバルタイプ | 有効な値: Left-open, Right-closedおよびLeft-closed, Right-open。 | |
ビニングモード | 有効な値: [Equal Frequency] 、[Equal Width] 、および [Automatic Binning] 。 | |
離散値カウントしきい値 | 値がこのしきい値より小さい場合、その値はelseビンに分配される。 | |
チューニング | コア | コアの数。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name binning
-project algo_public
-DinputTableName=input
-DoutputTableName=output
パラメーター | 説明 | 必須 | デフォルト値 |
inputTableName | 入力テーブルの名前。 | Yes | None |
outputTableName | 出力テーブルの名前。 | Yes | None |
selectedColNames | ビニング用に入力テーブルから選択された列。 | No | ラベル列を除くすべての列 (ラベル列が存在しない場合は、すべての列が選択されます) 。 |
labelColName | ラベル列。 | No | None |
validTableName | 検証テーブルの名前。 このパラメーターは、binningMethodパラメーターがautoに設定されている場合に必要です。 | No | ヌル |
validTablePartitions | 検証テーブルから選択されたパーティション。 | No | フルテーブル |
inputTablePartitions | 入力テーブルから選択されたパーティション。 | No | フルテーブル |
inputBinTableName | 入力ビニングテーブル。 | No | None |
selectedBinColNames | 入力ビニングテーブルから選択された列。 | No | ヌル |
positiveLabel | サンプルが陽性サンプルかどうかを指定します。 | いいえ | 1 |
nDivide | ビンの数。 このパラメーターの値は正の整数でなければなりません。 | No | 10 |
colsNDivide | 特定の列のビンの数。 このパラメーターは、列名1: ビン数、列名2: ビン数の形式で指定します。 例: col0:3,col2:5 colsNDivideパラメーターに指定された列がselectedColNamesパラメーターに指定された列に含まれていない場合、その列はビニングでも使用されます。 たとえば、selectedColNamesパラメーターはcol0,col1に設定され、colsNDivideパラメーターはcol0:3,col2:5に設定され、nDivideパラメーターは10に設定されます。 この場合、col0:3、col1:10、col2:5に基づいてビニングが行われる。 | No | ヌル |
isLeftOpen | intervalタイプ。 有効な値:
| No | true |
stringThreshold | elseビンの離散値のしきい値。 | No | None |
colsStringThreshold | 特定の列のしきい値。 このパラメーターは、colsNDivideパラメーターと同じ形式で指定します。 | No | ヌル |
binningMethod | ビニングモード。 有効な値:
| No | quantile |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 このパラメーターの値は正の整数でなければなりません。 | No | None |
coreNum | コアの数。 このパラメーターの値は正の整数でなければなりません。 | No | システムによって決定される |
memSizePerCore | 各コアのメモリサイズ。 このパラメーターの値は正の整数でなければなりません。 | No | システムによって決定される |
ビニングコンポーネントは、スコアカードトレーニングコンポーネントと共に使用する必要があります。 スコアカードトレーニング中、ビニングコンポーネントは、連続フィーチャを複数の離散ダミー変数に変換して、フィーチャエンジニアリングを実現します。 ダミー変数の重みに制約を指定できます。 以下の情報は、制約について説明します。
昇順: 昇順のインデックス値に基づいて、フィーチャのダミー変数に重みを追加する必要があります。 これは、インデックス値が大きいダミー変数ほど重みが大きいことを示している。
降順: 降順のインデックス値に基づいて、フィーチャのダミー変数に重みを追加する必要があります。 これは、インデックス値が大きいダミー変数ほど重みが小さいことを示している。
同じ重み: フィーチャの2つのダミー変数の重みは同じでなければなりません。
Zero weight: ダミー変数の重みは0でなければなりません。
特定の重み: ダミー変数の重みは、特定の浮動小数点値でなければなりません。
WOE順序: 重みは、証拠の重み (WOE) 値に基づいて、昇順で特徴のダミー変数に追加する必要があります。 これは、WOE値が大きいダミー変数ほど重みが大きいことを示している。
結果のプレゼンテーション
ビニングコンポーネントを含むワークフローの実行が完了したら、キャンバスでビニングコンポーネントを右クリックし、ビニングを選択します。
変数リストページで、各変数の [ビン] 、[タイプ] 、および [IV] 情報を確認できます。 変数情報の例を次の図に示します。
f1などの変数の名前をクリックして、変数のビニング詳細ページに移動します。 次の図は、f1のビニング詳細ページを示しています。
[マージ] または [分割] をクリックすると、ビニングデータをマージまたは分割できます。 ビンの制約を指定することもできます。
説明指定された制約は、後続のスコアカードトレーニングコンポーネントでのみ有効です。 スコアカードトレーニングコンポーネントNoneでビニングコンポーネントを使用する場合、これらの制約は無視できます。