本文基於信用卡消費記錄,為您介紹如何通過PAI提供的金融組件,構建評分卡建模方案。
背景資訊
評分卡是信用風險評估和互連網金融領域常用的建模方法,並不簡單對應於某種機器學習演算法,而是一種通用建模架構。其原理是先將分箱後的未經處理資料進行特徵工程變換,再使用線性模型建模。
評分卡建模理論通常適用於信用評估領域,例如信用卡風險評估和貸款發放業務。在其它領域,評分卡建模也可以作為分數評估,例如客服品質打分和芝麻信用打分。
前提條件
資料集
本工作流程使用國外某機構開源的資料集(下載資料集),共30000條。該資料集中包含使用者的性別、教育、婚姻、年齡、歷史信用卡消費情況及信用卡賬單情況。
其中payment_next_month為目標隊列,表示使用者是否償還信用卡賬單。其中:
1表示已償還賬單。
0表示未償還賬單。
評分卡信用評分
進入Designer頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入Designer頁面。
構建工作流程。
在Designer頁面,單擊預置模板頁簽。
在預置模板頁面中,單擊基於評分卡的信用卡消費分析下的建立。
在建立工作流程對話方塊,配置參數(可以全部使用預設參數)。
其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的臨時資料和模型。
單擊確定。
您需要等待大約十秒鐘,工作流程可以建立成功。
在工作流程列表,雙擊基於評分卡的信用卡消費分析,進入工作流程。
系統根據預置的模板,自動構建工作流程,如下圖所示。
地區
描述
①
將輸入資料集拆分為訓練資料集和預測資料集。
②
分箱組件類似於One-Hot編碼,可以根據資料分布將資料對應為高維度特徵。以age欄位為例,分箱組件可以根據資料在不同區間的分布進行分箱操作。工作流程運行完成後,您可以按右鍵分箱-1組件,選擇我要分箱。在分箱-1配置面板中單擊名稱(age)進行查看。其結果如下圖所示。工作流程運行完成後,您可以按右鍵分箱-1組件,在捷徑功能表,選擇 ,即可查看每個欄位均被分箱至多個區間中,如下圖所示。
③
綜合比較拆分前後及分箱結果的樣本穩定程度,返回每個特徵的PSI數值。工作流程運行完成後,您可以按右鍵樣本穩定指數(PSI)-1,選擇
進行查看。如下圖所示。樣本穩定指數是衡量樣本變化所產生位移量的重要指標,可以衡量樣本的穩定程度。將特徵每行對應的PSI值求和,即為該特徵總的PSI值。通常,如果變數的PSI值小於0.1,則表示樣本變化不太顯著。如果PSI值大於0.1且小於0.25,則表示樣本變化比較顯著。如果PSI值大於0.25,則表示樣本變化比較劇烈,需要特殊關注。
④
評分卡訓練。工作流程運行完成後,您可以按右鍵評分卡訓練-1組件,選擇
查看訓練結果。如下圖所示。評分卡的精髓是使用符合業務標準的分數表示複雜的模型權重,其結果的關鍵參數如下:weight:表示原始的權重值。
Scaled_weight:分數更改指標。例如,對於pay_0特徵,如果特徵值在(-1,0]區間,則分數減29。如果特徵值在(0,1]區間,則分數加27。
contribution:每個特徵對於結果的影響。數值越大,則影響越大。
⑤
預測每個使用者的信用評分並評估模型效果。
運行工作流程並查看輸出結果。
單擊畫布上方的運行按鈕。
工作流程運行結束後,按右鍵畫布中的評分卡預測-1,在捷徑功能表,單擊 ,即可查看每個使用者的信用評分。
相關文檔
關於演算法組件更詳細的內容介紹,請參見: