すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:主成分分析 (PCA)

最終更新日:Jul 22, 2024

主成分分析 (PCA) は、複数の変数の内部構造と、それらがいくつかの主成分に基づいて互いにどのように相関するかを調査するために使用される多変量統計法です。 PCAを使用して、互いに関係のないいくつかの主成分を元の変数からエクスポートできます。 これらの主成分は、元の変数に関する情報をできるだけ多く保持し、新しい包括的なメトリックとして使用されます。

制限事項

主成分分析 (PCA) コンポーネントは、高密度フォーマットのデータのみをサポートします。 このコンポーネントは、次元とノイズリダクションに使用できます。

コンポーネントの設定

次のいずれかの方法を使用して、主成分分析 (PCA) コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Principal Component Analysis (PCA) コンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

フィーチャー列

分析のために入力テーブルから選択された列。

追加された列

次元削減後にテーブルに追加される列。

パラメーター設定

データサイズ比

次元削減後の情報保持率。

特徴分解モード

フィーチャを分解するために使用されるメソッド。 有効な値:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

データ変換方法

データ型の変換に使用されるメソッド。 有効な値:

  • シンプル

  • サブ平均

  • 正規化

チューニング

ライフサイクル

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

コア

コアの数。 このパラメーターは、ノードあたりのメモリサイズ (単位: MB) パラメーターとともに使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999]

ノードあたりのメモリサイズ (単位: MB)

単位:MB。 各コアのメモリサイズ。 値は正の整数でなければなりません。 有効値: [1024,64 × 1024]

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;

パラメーター

必須

説明

デフォルト値

inputTableName

トレーニングに使用される入力テーブル。

デフォルト値なし

selectedColNames

分析のために入力テーブルから選択された列。

複数の列はコンマ (,) で区切ります。 INTまたはDOUBLEデータ型の列がサポートされています。

デフォルト値なし

eigOutputTableName

特徴ベクトルと特徴値を含む出力テーブル。

デフォルト値なし

princompOutputTableName

主成分の次元とノイズリダクション後の出力テーブル。

デフォルト値なし

transType

不可

元のテーブルをPCAテーブルに変換するために使用されるメソッド。 有効な値:

  • シンプル

  • サブ平均

  • 正規化

シンプル

calcuType

不可

元のテーブルのフィーチャを分解するために使用されるメソッド。 有効な値:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

CORR

contriRate

不可

次元削減後の情報保持率。 有効値: (0,1)

0.9

remainColumns

不可

次元削減後に元のテーブルから保持されるフィールド。

デフォルト値なし

coreNum

不可

コアの数。 このパラメーターは、memSizePerCoreパラメーターと共に使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999]

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。 各コアのメモリサイズ。 値は正の整数でなければなりません。 有効値: [1024,64 × 1024]

システムによって決定される

ライフサイクル

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

デフォルト値なし

例:

サンプル出力テーブル

  • 次元削減Data table after dimension reduction後のデータテーブル

  • 特徴値と特徴ベクトルTable that contains feature values and feature vectorsを含むテーブル