ピアソン係数は、2つの変数間の線形相関を測定する線形相関係数である。 Machine Learning Platform for AI (PAI) では、ピアソン係数コンポーネントを使用して、入力テーブルまたはパーティションの2つの数値列のピアソン相関係数を計算します。 計算結果は出力テーブルにエクスポートされます。
コンポーネントの設定
次のいずれかの方法を使用して、Pearson Coefficientコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Pearson Coefficientコンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | 入力列1 | 相関係数を計算する列の名前。 |
入力列2 | 相関係数を計算する列の名前。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
pai -name pearson
-project algo_public
-DinputTableName=wpbc
-Dcol1Name=f1
-Dcol2Name=f2
-DoutputTableName=wpbc_pear;
パラメーター | 説明 | 必須 |
inputTableName | 入力テーブルの名前。 | 可 |
inputTablePartitions | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。
| 不可 |
col1Name | 入力列1の名前。 | 可 |
col2Name | 入力列2の名前。 | 可 |
outputTableName | 出力テーブルの名前。 | 可 |
ライフサイクルの設定 (Set lifecycle) | 出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。 説明 値は正の整数でなければなりません。 | 不可 |
Example
入力テーブル
create table pai_pearson_test_input as select * from ( select 1.0 as f0,0.11 as f1 union all select 2.0 as f0,0.12 as f1 union all select 3.0 as f0,0.13 as f1 union all select 5.0 as f0,0.15 as f1 union all select 8.0 as f0,0.18 as f1 )tmp;
PAIコマンド
pai -name pearson -project algo_public -DinputTableName=pai_pearson_test_input -Dcol1Name=f0 -Dcol2Name=f1 -DoutputTableName=pai_pearson_test_output;
出力テーブル
+------------+------------+------------+------------+-------------+-------------+---------------------+ | src_table | src_parts | col1_name | col2_name | count_total | count_valid | pearson_coefficient | +------------+------------+------------+------------+-------------+-------------+---------------------+ | sre_mpi_algo_dev.pai_pearson_test_input | | f0 | f1 | 5 | 5 | 0.9999999999999973 | +------------+------------+------------+------------+-------------+-------------+---------------------+