在机器学习的分类问题中,IV值(Information Value)主要用于对输入特征变量进行编码,同时评估特征变量的预测能力。特征变量IV值的大小即表示该特征变量预测能力的强弱。本文介绍了IV算法相关的内容。
使用场景
IV值一般用于在风控场景中筛选变量。例如,在风控场景中可能会有千级别、万级别的特征,人工很难发现有效特征,通过计算IV值,可以将有效的特征筛选出来,从而针对性地收集和处理。
语法
CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', y_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)
语法中对应的参数说明如下:
参数 | 说明 |
feature_name | 特征名称。 |
feature_class | 特征的类型。固定值iv。 |
x_cols | 自变量列表,多个自变量之间使用英文逗号(,)分隔。 |
y_cols | 因变量。 |
parameters | 创建特征时用户自定义的参数。目前仅支持配置为categorical_feature,表示类目型的特征,多个特征之间使用英文逗号(,)分隔,不参与计算。 |
select_expr | 用于创建特征的列名。 |
table_reference | 用于创建特征的列所在的表的名称。 |
示例
/*polar4ai*/CREATE FEATURE iv_001 WITH ( feature_class = 'iv',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',y_cols='Delay',parameters=(categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * from airlines_test_1000);