全部產品
Search
文件中心

PolarDB:群體穩定性指標PSI

更新時間:Jul 06, 2024

群體穩定性指標(Population Stability Index,簡稱PSI)用於檢查資料實際分布和預期分布的差異,以評估模型的穩定性。

使用情境

PSI通常用於風控領域。在風控領域,穩定性是判斷模型是否有效一個因素。因為一套風控模型正式上線運行後需要很長時間(通常一年以上)才會被替換下線。如果模型不穩定,意味著模型不可控,對於業務本身而言就存在一種不確定性風險,將直接影響決策的合理性。

文法

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=())

文法中對應的參數說明如下:

參數

說明

feature_name

特徵名稱。

feature_class

特徵的類型。固定值psi。

x_cols

自變數列表。多個自變數之間使用英文逗號(,)分隔。

parameters

建立特徵時使用者自訂的參數。取值如下:

  • actual_table:資料實際分布表。

  • predict_table:資料預期分布表。

  • bin_num:分箱數。需要與bins_method搭配使用,會根據分箱方式和實際資料進行計算,可不填。

  • bins_method:分箱方式。取值如下:

    • chi(預設):卡方分箱。

    • quantile:等頻分箱。

    • step:等步長分箱。

    • dt:決策樹分箱。

    • kmean:基於k均值聚類分箱。

  • categorical_feature:類目型的特徵。多個類目型之間使用英文逗號(,)分隔。

樣本

/*polar4ai*/CREATE FEATURE psi_001 WITH ( feature_class = 'psi',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(actual_table='airlines_train_1000',predict_table='airlines_test_1000',bins_num=10,bins_method='quantile',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek'));