Pearson相關係數(Pearson Correlation Coefficient)用于衡量兩個資料集合的線性關係。Pearson相關係數的絕對值越大,相關性越強。本文介紹了Pearson相關係數的相關內容。
使用情境
Pearson相關係數的適用範圍如下:
兩個變數的標準差都不為零。
兩個變數之間是線性關係,且都是連續的資料。
雙變數常態分佈,或接近正態的單峰分布。
通常,Pearson相關係數用於判斷機器學習模型中兩個特徵之間的線性關係,如果兩個特徵相關度較強,則表明這兩個特徵有重複的嫌疑,您可以根據具體的情況選擇丟棄一個特徵,以保證模型的有效性。
文法
CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)
文法中對應的參數說明如下:
參數 | 說明 | 樣本 |
feature_name | 特徵名稱。 | pearson_001 |
feature_class | 特徵的類型。固定值pearson。 | pearson |
x_cols | 自變數列表,必須是浮點數或整數。多個自變數之間使用英文逗號(,)分隔。 | dx1,dx2 |
parameters | 建立特徵時使用者自訂的參數。取值如下:
| categorical_feature='dx3' |
select_expr | 用於建立特徵的列名。 | dx4 |
table_reference | 用於建立特徵的列所在的表的名稱。 | airlines_test_1000 |
樣本
/*polar4ai*/CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(null_strategy='mean',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * FROM airlines_test_1000);