集団安定性指数 (PSI) は、集団の2つのサンプルにおけるシフトを識別するための重要な測定基準である。
背景情報
PSIは、サンプルの安定性を測定するために使用される一般的なメトリックです。 たとえば、2か月以内の人口の変化が安定しているかどうかを測定するために使用できます。 0.1未満のPSI値は、有意でない変化を示す。 0.1から0.25までのPSI値は、マイナーな変更を示します。 0.25より大きいPSI値は、大きな変化を示す。
時間の経過に伴う母集団の変化が不安定な場合は、グラフを使用して変化を識別できます。 変数のビニングを実行し、各ビンのサンプルの数と割合を計算してから、統計を縦棒グラフに表示できます。 次の図は、サンプルチャートを示しています。 前述の方法は、2つのサンプルの変数が大幅に変化するかどうかを直接示すことができます。 しかしながら、これらの変化のシフトは、この方法を用いて測定することはできない。 したがって、集団の安定性を自動的に監視することはできません。 この問題を解決するには、人口安定性インデックスコンポーネントを使用します。 次の図は、PSI値の計算に使用される式を示しています。
コンポーネントの設定
次のいずれかの方法を使用して、ポピュレーション安定性インデックスコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Population Stability Indexコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | PSI計算の機能 | PSI値の計算に必要なフィーチャ列。 |
チューニング | コア | 必要なCPUコアの数。 デフォルトでは、システムが値を決定します。 |
メモリサイズ | 各CPUコアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name psi
-project algo_public
-DinputBaseTableName=psi_base_table
-DinputTestTableName=psi_test_table
-DoutputTableName=psi_bin_table
-DinputBinTableName=pai_index_table
-DfeatureColNames=fea1,fea2,fea3
-Dlifecycle=7
パラメーター | 説明 | 必須 | デフォルト値 |
inputBaseTableName | ベーステーブルの名前。 母集団のシフトは、ベーステーブルとテストテーブルのサンプルに基づいて計算されます。 | 可 | デフォルト値なし |
inputBaseTablePartitions | ベーステーブルから選択されたパーティション。 | 不可 | フルテーブル |
inputTestTableName | テストテーブルの名前。 母集団のシフトは、ベーステーブルとテストテーブルのサンプルに基づいて計算されます。 | 可 | デフォルト値なし |
inputTestTablePartitions | テストテーブルから選択されたパーティション。 | 不可 | フルテーブル |
inputBinTableName | ビニング結果テーブルの名前。 | 可 | デフォルト値なし |
featureColNames | PSI値の計算に必要なフィーチャ列。 | 不可 | フルテーブル |
outputTableName | 出力テーブルの名前。 | 可 | デフォルト値なし |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 | 不可 | デフォルト値なし |
coreNum | 必要なCPUコアの数。 | 不可 | システムによって決定される |
memSizePerCore | 各CPUコアのメモリサイズ。 単位:MB。 | 不可 | システムによって決定される |
例:
ビニングコンポーネントを使用して、フィーチャのビニングを実行します。 次に、次の図に示すように、母集団安定性インデックスコンポーネントを、比較する2つのサンプルデータセットとビニングコンポーネントに接続します。 [PSI計算の機能] パラメーターを指定します。 人口安定指数コンポーネントの計算結果を次の図に示します。