全部產品
Search
文件中心

Platform For AI:皮爾森係數

更新時間:Jul 13, 2024

皮爾森係數是一種線性相關係數,用於反映兩個變數線性相關程度的統計量。機器學習中,皮爾森係數用於計算輸入表或分區兩列(數值列)的Pearson相關係數,計算結果輸出至輸出表。

組件配置

您可以使用以下任意一種方式,配置皮爾森係數組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

IO/欄位設定

輸入列1

輸入計算相關係數列名。

輸入列2。

輸入計算相關係數列名。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

pai -name pearson
    -project algo_public
    -DinputTableName=wpbc
    -Dcol1Name=f1
    -Dcol2Name=f2
    -DoutputTableName=wpbc_pear;

參數名稱

參數描述

是否必選

inputTableName

輸入表的表名。

inputTablePartitions

系統預設選擇所有分區。指定輸入表的分區:

  • 指定單個分區,格式為partition_name=value

  • 指定多個分區,格式為name1=value1,name2=value2

    說明

    多個分區之間用英文逗號(,)分隔。

  • 指定多級分區,格式為name1=value1/name2=value2

col1Name

輸入列1的列名。

col2Name

輸入列2的列名。

outputTableName

輸出結果表的表名。

lifecycle

輸出表的生命週期。系統預設無生命週期。

說明

僅支援輸入正整數。

樣本

  • 輸入表

    create table pai_pearson_test_input as
    select * from
    (
    select 1.0 as f0,0.11 as f1
    union all
    select 2.0 as f0,0.12 as f1
    union all
    select 3.0 as f0,0.13 as f1
    union all
    select 5.0 as f0,0.15 as f1
    union all
    select 8.0 as f0,0.18 as f1
    )tmp;
  • PAI命令

    pai -name pearson
        -project algo_public
        -DinputTableName=pai_pearson_test_input
        -Dcol1Name=f0
        -Dcol2Name=f1
        -DoutputTableName=pai_pearson_test_output;
  • 輸出表

    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | src_table  | src_parts  | col1_name  | col2_name  | count_total | count_valid | pearson_coefficient |
    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | sre_mpi_algo_dev.pai_pearson_test_input |            | f0         | f1         | 5           | 5           | 0.9999999999999973  |
    +------------+------------+------------+------------+-------------+-------------+---------------------+