すべてのプロダクト
Search
ドキュメントセンター

PolarDB:ピアソン相関係数

最終更新日:Jun 05, 2024

このトピックでは、2つのフィーチャの線形相関を測定するピアソン相関係数について説明します。 絶対値が大きいほど、相関は強い。

シナリオ

ピアソン相関係数を適用できる変数は、次の要件を満たす必要があります。

  • どちらの変数の標準偏差も0ではありません。

  • 変数は線形関係にあり、連続的である。

  • 変数は、二変量正規分布、または正規分布に似た単峰性分布にあります。

ピアソン相関係数は、機械学習モデルの2つのフィーチャの線形関係を決定するために一般的に使用されます。 2つの特徴が高度に相関する場合、それらは交換可能である。 この場合、モデルの有効性を確保するためにそれらの1つを破棄できます。

構文

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... table_referenceから) 

パラメーターの説明:

パラメーター

説明

feature_name

フィーチャーの名前。

pearson_001

feature_class

フィーチャーのタイプ。 値をpearsonに設定します。

pearson

x_cols

フィーチャーを作成するためのカスタムパラメーター。 各値は浮動小数点または整数でなければなりません。 複数の変数はコンマ (,) で区切ります。

dx1,dx2

parameters

フィーチャーを作成するためのカスタムパラメーター。 以下のパラメーターがサポートされます。

  • null_strategy: NULL値を置き換える方法を指定します。 以下のパラメーターがサポートされます。

    • mean: NULL値を平均値に置き換えます。

    • median: NULL値を中央値に置き換えます。

  • categorical_feature: categorical features。 複数のフィーチャはコンマ (,) で区切ります。 このパラメーターを使用して、x_colsの非整数列と非浮動小数点列を除外します。

categorical_feature='dx3'

select_expr

フィーチャーの作成に使用される列の名前。

dx4

table_reference

フィーチャーの作成に使用される列を含むテーブルの名前。

airlines_test_1000

例:

/* polar4ai */CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson' 、x_cols='Airline、Flight、AirportFrom、AirportTo、DayOfWeek、Time、Length' 、parameters=(null_strategy='mean '、categoral_feature=FEATURE='''Airline、Airline、AirportFrom、DayOfWeek')