全部產品
Search
文件中心

Platform For AI:主成分分析

更新時間:Jul 13, 2024

主成分分析(PCA)是研究如何通過少數主成分揭示多個變數間的內部結構,考察多個變數間相關性的一種多元統計方法。PCA從原始變數中匯出少數主成分,使它們儘可能多地保留原始變數的資訊,並且彼此間互不相關,作為新的綜合指標。

使用限制

主成分分析演算法實現了降維和降噪的功能,僅支援稠密資料格式。

組件配置

您可以使用以下任意一種方式,配置主成分分析組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

選擇特徵列

輸入表中用於分析的列名稱。

附加列

附加在降維資料表後的列。

參數設定

資訊量比例

降維後資料資訊占原來的比例。

特徵分解方式

分解特徵的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

資料轉換方式

轉換為新資料的處理方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

執行調優

生命週期

指定輸出表的生命週期,取值為正整數。

節點個數

單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。

單個節點記憶體大小

單位為兆。取值範圍為[1024, 64*1024]的正整數。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;

參數名稱

是否必選

參數描述

預設值

inputTableName

進行主成分分析的輸入表。

selectedColNames

輸入表中用於分析的列名稱。

使用逗號分隔,支援INT和DOUBLE類型。

eigOutputTableName

特徵向量與特徵值的輸出表。

princompOutputTableName

進行主成分降維降噪後的結果輸出表。

transType

轉換原表為主成分分析表的方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

Simple

calcuType

對原表進行特徵分解的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

CORR

contriRate

資料資訊降維後保留的百分比。取值範圍為(0,1)

0.9

remainColumns

降維表保留原表的欄位。

coreNum

節點個數,與memSizePerCore參數配對使用。取值範圍為[1, 9999]的正整數。

系統自動分配。

memSizePerCore

單個節點的記憶體大小,單位為兆。取值範圍為[1024, 64*1024]的正整數。

系統自動分配。

lifecycle

指定輸出表的生命週期,取值為正整數。

樣本

PCA輸出樣本

  • 降維後的資料表降為資料表

  • 特徵值和特徵向量表特徵值和特徵向量表