このトピックでは、2つのフィーチャの線形相関を測定するピアソン相関係数について説明します。 絶対値が大きいほど、相関は強い。
シナリオ
ピアソン相関係数を適用できる変数は、次の要件を満たす必要があります。
どちらの変数の標準偏差も0ではありません。
変数は線形関係にあり、連続的である。
変数は、二変量正規分布、または正規分布に似た単峰性分布にあります。
ピアソン相関係数は、機械学習モデルの2つのフィーチャの線形関係を決定するために一般的に使用されます。 2つの特徴が高度に相関する場合、それらは交換可能である。 この場合、モデルの有効性を確保するためにそれらの1つを破棄できます。
構文
CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... table_referenceから)
パラメーターの説明:
パラメーター | 説明 | 例 |
feature_name | フィーチャーの名前。 | pearson_001 |
feature_class | フィーチャーのタイプ。 値をpearsonに設定します。 | pearson |
x_cols | フィーチャーを作成するためのカスタムパラメーター。 各値は浮動小数点または整数でなければなりません。 複数の変数はコンマ (,) で区切ります。 | dx1,dx2 |
parameters | フィーチャーを作成するためのカスタムパラメーター。 以下のパラメーターがサポートされます。
| categorical_feature='dx3' |
select_expr | フィーチャーの作成に使用される列の名前。 | dx4 |
table_reference | フィーチャーの作成に使用される列を含むテーブルの名前。 | airlines_test_1000 |
例:
/* polar4ai */CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson' 、x_cols='Airline、Flight、AirportFrom、AirportTo、DayOfWeek、Time、Length' 、parameters=(null_strategy='mean '、categoral_feature=FEATURE='''Airline、Airline、AirportFrom、DayOfWeek')