全部产品
Search
文档中心

云原生数据库 PolarDB:Pearson相关系数

更新时间:Mar 21, 2024

Pearson相关系数(Pearson Correlation Coefficient)用于衡量两个数据集合的线性关系。Pearson相关系数的绝对值越大,相关性越强。本文介绍了Pearson相关系数的相关内容。

使用场景

Pearson相关系数的适用范围如下:

  • 两个变量的标准差都不为零。

  • 两个变量之间是线性关系,且都是连续的数据。

  • 双变量正态分布,或接近正态的单峰分布。

通常,Pearson相关系数用于判断机器学习模型中两个特征之间的线性关系,如果两个特征相关度较强,则表明这两个特征有重复的嫌疑,您可以根据具体的情况选择丢弃一个特征,以保证模型的有效性。

语法

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)

语法中对应的参数说明如下:

参数

说明

示例

feature_name

特征名称。

pearson_001

feature_class

特征的类型。固定值pearson。

pearson

x_cols

自变量列表,必须是浮点数或整数。多个自变量之间使用英文逗号(,)分隔。

dx1,dx2

parameters

创建特征时用户自定义的参数。取值如下:

  • null_strategy:空值填充策略。取值如下:

    • mean(默认):使用均值填充。

    • median:使用中位数填充。

  • categorical_feature:类目特征。多个类目特征之间使用英文逗号(,)分隔。用于排除x_cols中的非整数或非浮点数类型的列。

categorical_feature='dx3'

select_expr

用于创建特征的列名。

dx4

table_reference

用于创建特征的列所在的表的名称。

airlines_test_1000

示例

/*polar4ai*/CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(null_strategy='mean',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * FROM airlines_test_1000);