全部產品
Search
文件中心

PolarDB:Pearson相關係數

更新時間:Jul 06, 2024

Pearson相關係數(Pearson Correlation Coefficient)用于衡量兩個資料集合的線性關係。Pearson相關係數的絕對值越大,相關性越強。本文介紹了Pearson相關係數的相關內容。

使用情境

Pearson相關係數的適用範圍如下:

  • 兩個變數的標準差都不為零。

  • 兩個變數之間是線性關係,且都是連續的資料。

  • 雙變數常態分佈,或接近正態的單峰分布。

通常,Pearson相關係數用於判斷機器學習模型中兩個特徵之間的線性關係,如果兩個特徵相關度較強,則表明這兩個特徵有重複的嫌疑,您可以根據具體的情況選擇丟棄一個特徵,以保證模型的有效性。

文法

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)

文法中對應的參數說明如下:

參數

說明

樣本

feature_name

特徵名稱。

pearson_001

feature_class

特徵的類型。固定值pearson。

pearson

x_cols

自變數列表,必須是浮點數或整數。多個自變數之間使用英文逗號(,)分隔。

dx1,dx2

parameters

建立特徵時使用者自訂的參數。取值如下:

  • null_strategy:空值填充策略。取值如下:

    • mean(預設):使用均值填充。

    • median:使用中位元填充。

  • categorical_feature:類目特徵。多個類目特徵之間使用英文逗號(,)分隔。用於排除x_cols中的非整數或非浮點數類型的列。

categorical_feature='dx3'

select_expr

用於建立特徵的列名。

dx4

table_reference

用於建立特徵的列所在的表的名稱。

airlines_test_1000

樣本

/*polar4ai*/CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(null_strategy='mean',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * FROM airlines_test_1000);