皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。机器学习中,皮尔森系数用于计算输入表或分区两列(数值列)的Pearson相关系数,计算结果输出至输出表。
组件配置
您可以使用以下任意一种方式,配置皮尔森系数组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
IO/字段设置 | 输入列1 | 输入计算相关系数列名。 |
输入列2。 | 输入计算相关系数列名。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
pai -name pearson
-project algo_public
-DinputTableName=wpbc
-Dcol1Name=f1
-Dcol2Name=f2
-DoutputTableName=wpbc_pear;
参数名称 | 参数描述 | 是否必选 |
inputTableName | 输入表的表名。 | 是 |
inputTablePartitions | 系统默认选择所有分区。指定输入表的分区:
| 否 |
col1Name | 输入列1的列名。 | 是 |
col2Name | 输入列2的列名。 | 是 |
outputTableName | 输出结果表的表名。 | 是 |
lifecycle | 输出表的生命周期。系统默认无生命周期。 说明 仅支持输入正整数。 | 否 |
示例
输入表
create table pai_pearson_test_input as select * from ( select 1.0 as f0,0.11 as f1 union all select 2.0 as f0,0.12 as f1 union all select 3.0 as f0,0.13 as f1 union all select 5.0 as f0,0.15 as f1 union all select 8.0 as f0,0.18 as f1 )tmp;
PAI命令
pai -name pearson -project algo_public -DinputTableName=pai_pearson_test_input -Dcol1Name=f0 -Dcol2Name=f1 -DoutputTableName=pai_pearson_test_output;
输出表
+------------+------------+------------+------------+-------------+-------------+---------------------+ | src_table | src_parts | col1_name | col2_name | count_total | count_valid | pearson_coefficient | +------------+------------+------------+------------+-------------+-------------+---------------------+ | sre_mpi_algo_dev.pai_pearson_test_input | | f0 | f1 | 5 | 5 | 0.9999999999999973 | +------------+------------+------------+------------+-------------+-------------+---------------------+