在機器學習的分類問題中,IV值(Information Value)主要用於對輸入特徵變數進行編碼,同時評估特徵變數的預測能力。特徵變數IV值的大小即表示該特徵變數預測能力的強弱。本文介紹了IV演算法相關的內容。
使用情境
IV值一般用於在風控情境中篩選變數。例如,在風控情境中可能會有千層級、萬層級的特徵,人工很難發現有效特徵,通過計算IV值,可以將有效特徵篩選出來,從而針對性地收集和處理。
文法
CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', y_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)
文法中對應的參數說明如下:
參數 | 說明 |
feature_name | 特徵名稱。 |
feature_class | 特徵的類型。固定值iv。 |
x_cols | 自變數列表,多個自變數之間使用英文逗號(,)分隔。 |
y_cols | 因變數。 |
parameters | 建立特徵時使用者自訂的參數。目前僅支援配置為categorical_feature,表示類目型的特徵,多個特徵之間使用英文逗號(,)分隔,不參與計算。 |
select_expr | 用於建立特徵的列名。 |
table_reference | 用於建立特徵的列所在的表的名稱。 |
樣本
/*polar4ai*/CREATE FEATURE iv_001 WITH ( feature_class = 'iv',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',y_cols='Delay',parameters=(categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * from airlines_test_1000);