主成分分析(PCA)是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。PCA从原始变量中导出少数主成分,使它们尽可能多地保留原始变量的信息,并且彼此间互不相关,作为新的综合指标。
使用限制
主成分分析算法实现了降维和降噪的功能,仅支持稠密数据格式。
组件配置
您可以使用以下任意一种方式,配置主成分分析组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 选择特征列 | 输入表中用于分析的列名称。 |
附加列 | 附加在降维数据表后的列。 | |
参数设置 | 信息量比例 | 降维后数据信息占原来的比例。 |
特征分解方式 | 分解特征的方式,取值如下:
| |
数据转换方式 | 转换为新数据的处理方式,取值如下:
| |
执行调优 | 生命周期 | 指定输出表的生命周期,取值为正整数。 |
节点个数 | 与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。 | |
单个节点内存大小 | 单位为兆。取值范围为[1024, 64*1024]的正整数。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
参数名称 | 是否必选 | 参数描述 | 默认值 |
inputTableName | 是 | 进行主成分分析的输入表。 | 无 |
selectedColNames | 是 | 输入表中用于分析的列名称。 使用逗号分隔,支持INT和DOUBLE类型。 | 无 |
eigOutputTableName | 是 | 特征向量与特征值的输出表。 | 无 |
princompOutputTableName | 是 | 进行主成分降维降噪后的结果输出表。 | 无 |
transType | 否 | 转换原表为主成分分析表的方式,取值如下:
| Simple |
calcuType | 否 | 对原表进行特征分解的方式,取值如下:
| CORR |
contriRate | 否 | 数据信息降维后保留的百分比。取值范围为(0,1)。 | 0.9 |
remainColumns | 否 | 降维表保留原表的字段。 | 无 |
coreNum | 否 | 节点个数,与memSizePerCore参数配对使用。取值范围为[1, 9999]的正整数。 | 系统自动分配。 |
memSizePerCore | 否 | 单个节点的内存大小,单位为兆。取值范围为[1024, 64*1024]的正整数。 | 系统自动分配。 |
lifecycle | 否 | 指定输出表的生命周期,取值为正整数。 | 无 |
示例
PCA输出示例
降维后的数据表
特征值和特征向量表