このトピックでは、Platform for AI (PAI) が提供する財務コンポーネントを使用して、クレジットカードの請求書に基づいてスコアカードモデルを作成する方法について説明します。
背景情報
スコアカードは、信用リスク評価およびインターネット金融分野で一般的に使用されるモデリング方法です。 これは、機械学習アルゴリズムだけでなく、一般的なモデリングフレームワークでもあります。 スコアカードモデリング処理は、以下のステップを含む。すなわち、生データをビン化し、各ビン内のデータに対して特徴エンジニアリングを実行し、次いで、処理されたデータを使用して線形モデルをトレーニングする。
スコアカードモデリングは、クレジットカード返済のリスクの評価やローン支払いの信用評価など、信用評価で一般的に使用されます。 また、カスタマーサービスのスコアリングやAlipayのクレジットスコアリングなど、スコアリングの他の分野でも使用されます。
前提条件
ワークスペースが作成済み。 詳細については、「ワークスペースの作成」をご参照ください。
MaxComputeリソースはワークスペースに関連付けられています。 詳細については、「ワークスペースの管理」をご参照ください。
データセット
このトピックで説明するパイプラインは、Default of Credit Card Clients datasetのオープンソースデータセットに基づいています。 このデータセットには30,000のデータレコードが含まれます。 各記録は、ユーザの性別、教育、婚姻状況、年齢、クレジットカード支払い履歴、およびクレジットカード請求書を含む。
payment_next_monthフィールドは、ユーザがクレジットカードの借金を返済する確率を示す。 フィールドで:
値1は、ユーザーが借金を返済することを示します。
値0は、ユーザーが借金を返済しないことを示します。
手順
Machine Learning Designerページに移動します。
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
ワークスペースページの左側のナビゲーションウィンドウで、 機械学習デザイナーページに移動します。
パイプラインを作成します。
Visualized Modeling (Designer) ページで、プリセットテンプレートタブをクリックします。
[プリセットテンプレート] タブで、作成下スコアカードモデルを使用してクレジットスコアを予測する.
[パイプラインの作成] ダイアログボックスで、パラメーターを設定します。 デフォルト値を使用できます。
Pipeline Data Pathパラメーターに指定された値は、パイプラインのランタイム中に生成された一時データおよびモデルのObject Storage Service (OSS) バケットパスです。
[OK] をクリックします。
パイプラインの作成には約10秒かかります。
[パイプライン] タブで、ダブルクリックします。スコアカードモデルを使用してクレジットスコアを予測するパイプラインを開きます。
次の図に示すように、キャンバス上のパイプラインのコンポーネントを表示します。 システムは、プリセットテンプレートに基づいてパイプラインを自動的に作成します。
エリア
説明
①
Split-1コンポーネントは、ソースデータセットをトレーニングデータセットと予測データセットに分割します。
②
Binning-1コンポーネントは、ワンホットエンコーディングと同様の機能を提供します。 コンポーネントは、入力データをデータクラス (ビン) にグループ化します。 各ビン内のデータ値は、ビンを表す値に置き換えられる。 例えば、Binning-1コンポーネントは、年齢の値を年齢間隔の数にグループ化する。 パイプラインの実行後、キャンバス上のBinning-1を右クリックし、[ビニング] をクリックします。 [Binning -1] パネルで、[年齢] タブをクリックします。 次の図に結果を示します。 パイプラインの実行後、キャンバス上のBinning-1を右クリックし、 を選択します。 表示されるダイアログボックスで、ビニング結果を表示します。 この例では、次の図に示すように、各フィールドはデータビニング後に複数の間隔に分類されます。
③
PSI-1コンポーネントは、データ分割の前後の母集団の安定性と、データビニング後の母集団の安定性とを比較します。 次に、次の図に示すように、コンポーネントはすべてのフィーチャの母集団安定指数 (PSI) 値を計算して返します。 パイプラインの実行後、キャンバス上で [PSI-1] を右クリックし、
を選択してデータを表示します。 次の図に結果を示します。人口の安定性を示すPSIは、一定期間にわたる人口の変化を特定するのに役立つ重要な指標です。 フィーチャの合計PSI値は、すべての行のフィーチャのPSI値の合計です。 0.1より小さいPSI値は、有意でない変化を示す。 0.1と0.25の間のPSI値は小さな変化を示します。 0.25を超えるPSI値は大きな変更を示し、細心の注意を払う必要があります。
④
Linear_model-1コンポーネントは、スコアカードモデルをトレーニングします。 パイプラインの実行後、Linear_model-1コンポーネントを右クリックし、
を選択してトレーニング結果を表示します。 次の図に結果を示します。 スコアカードモデルを使用する目的は、正規化されたスコアを使用して、関連する特徴の重みを示すことである。 モデルのトレーニング結果には、次の主要なパラメーターが含まれます。weight: 最初のウェイト。
Scaled_weight: スケーリングされた重み。 たとえば、pay_0機能が (-1,0) ビンに該当する場合、29ポイントが失われます。 pay_0特徴が (0,1) のビンに入る場合、27ポイントが得られる。
貢献: 結果に対する各機能の影響。 より高い値は、より大きな影響を示す。
⑤
Lm_predict-1コンポーネントは、スコアカードモデルを使用して、各ユーザーのクレジットスコアを予測します。 Evaluate-1コンポーネントは、モデルの品質を評価します。
パイプラインを実行し、結果を表示します。
キャンバスの左上隅で、アイコンが表示されます。
パイプラインの実行後、Lm_predict-1コンポーネントを右クリックし、 を選択して、各ユーザーのクレジットスコアを表示します。
関連ドキュメント
アルゴリズムコンポーネントの詳細については、以下のトピックを参照してください。