全部產品
Search
文件中心

PolarDB:IV演算法

更新時間:Jul 06, 2024

在機器學習的分類問題中,IV值(Information Value)主要用於對輸入特徵變數進行編碼,同時評估特徵變數的預測能力。特徵變數IV值的大小即表示該特徵變數預測能力的強弱。本文介紹了IV演算法相關的內容。

使用情境

IV值一般用於在風控情境中篩選變數。例如,在風控情境中可能會有千層級、萬層級的特徵,人工很難發現有效特徵,通過計算IV值,可以將有效特徵篩選出來,從而針對性地收集和處理。

文法

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', y_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)

文法中對應的參數說明如下:

參數

說明

feature_name

特徵名稱。

feature_class

特徵的類型。固定值iv。

x_cols

自變數列表,多個自變數之間使用英文逗號(,)分隔。

y_cols

因變數。

parameters

建立特徵時使用者自訂的參數。目前僅支援配置為categorical_feature,表示類目型的特徵,多個特徵之間使用英文逗號(,)分隔,不參與計算。

select_expr

用於建立特徵的列名。

table_reference

用於建立特徵的列所在的表的名稱。

樣本

/*polar4ai*/CREATE FEATURE iv_001 WITH ( feature_class = 'iv',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',y_cols='Delay',parameters=(categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * from airlines_test_1000);