主成分分析 (PCA) は、複数の変数の内部構造と、それらがいくつかの主成分に基づいて互いにどのように相関するかを調査するために使用される多変量統計法です。 PCAを使用して、互いに関係のないいくつかの主成分を元の変数からエクスポートできます。 これらの主成分は、元の変数に関する情報をできるだけ多く保持し、新しい包括的なメトリックとして使用されます。
制限事項
主成分分析 (PCA) コンポーネントは、高密度フォーマットのデータのみをサポートします。 このコンポーネントは、次元とノイズリダクションに使用できます。
コンポーネントの設定
次のいずれかの方法を使用して、主成分分析 (PCA) コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、Principal Component Analysis (PCA) コンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | フィーチャー列 | 分析のために入力テーブルから選択された列。 |
追加された列 | 次元削減後にテーブルに追加される列。 | |
パラメーター設定 | データサイズ比 | 次元削減後の情報保持率。 |
特徴分解モード | フィーチャを分解するために使用されるメソッド。 有効な値:
| |
データ変換方法 | データ型の変換に使用されるメソッド。 有効な値:
| |
チューニング | ライフサイクル | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 |
コア | コアの数。 このパラメーターは、ノードあたりのメモリサイズ (単位: MB) パラメーターとともに使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999] 。 | |
ノードあたりのメモリサイズ (単位: MB) | 単位:MB。 各コアのメモリサイズ。 値は正の整数でなければなりません。 有効値: [1024,64 × 1024] |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | トレーニングに使用される入力テーブル。 | デフォルト値なし |
selectedColNames | 可 | 分析のために入力テーブルから選択された列。 複数の列はコンマ (,) で区切ります。 INTまたはDOUBLEデータ型の列がサポートされています。 | デフォルト値なし |
eigOutputTableName | 可 | 特徴ベクトルと特徴値を含む出力テーブル。 | デフォルト値なし |
princompOutputTableName | 可 | 主成分の次元とノイズリダクション後の出力テーブル。 | デフォルト値なし |
transType | 不可 | 元のテーブルをPCAテーブルに変換するために使用されるメソッド。 有効な値:
| シンプル |
calcuType | 不可 | 元のテーブルのフィーチャを分解するために使用されるメソッド。 有効な値:
| CORR |
contriRate | 不可 | 次元削減後の情報保持率。 有効値: (0,1) | 0.9 |
remainColumns | 不可 | 次元削減後に元のテーブルから保持されるフィールド。 | デフォルト値なし |
coreNum | 不可 | コアの数。 このパラメーターは、memSizePerCoreパラメーターと共に使用されます。 値は正の整数でなければなりません。 有効な値: [1,9999] 。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 各コアのメモリサイズ。 値は正の整数でなければなりません。 有効値: [1024,64 × 1024] | システムによって決定される |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | デフォルト値なし |
例:
サンプル出力テーブル
次元削減後のデータテーブル
特徴値と特徴ベクトルを含むテーブル