全部产品
Search
文档中心

人工智能平台 PAI:协方差

更新时间:Nov 26, 2024

协方差算法是一种用于衡量两个随机变量之间线性关系的统计方法。它通过计算变量的偏差乘积的期望值,评估它们如何共同变化。协方差在概率论和统计学中具有重要意义,并在机器学习中广泛应用于特征选择和数据预处理等任务。

算法说明

协方差的定义

协方差定义为两个随机变量的偏差乘积的期望值。具体公式如下:

其中:

  • X和Y是两个随机变量。

  • μ和ν分别是X和Y的期望值。

  • E表示期望运算。

协方差的性质

  • 正协方差:表示两个变量呈正相关关系,即一个变量增加时,另一个变量也倾向于增加。

  • 负协方差:表示两个变量呈负相关关系,即一个变量增加时,另一个变量倾向于减少。

  • 零协方差:表示两个变量之间没有线性关系。

组件配置

方式一:可视化方式

在Designer工作流页面添加协方差组件,并在界面右侧配置相关参数:

参数类型

参数

描述

字段设置

输入列

选择输入列,只支持bigint与double类型。

进行调优

核心数

计算的核心数,如果未配置,则系统自动分配。

内存数

每个核心的内存,如果未配置,则系统自动分配,单位为MB。

方式二:PAI命令方式

使用PAI命令配置协方差组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

PAI -name cov
    -project algo_public
    -DinputTableName=maple_test_cov_basic12x10_input
    -DoutputTableName=maple_test_cov_basic12x10_output
    -DcoreNum=6
    -DmemSizePerCore=110;

参数名称

是否必须

默认值

描述

inputTableName

输入表的名称。

inputTablePartitions

输入表的所有分区

输入表中,参与训练的分区。系统支持以下格式:

  • partition_name=value

  • name1=value1/name2=value2:多级分区

说明

指定多个分区时,分区之间使用英文逗号(,)分隔,例如name1=value1,value2。

outputTableName

输出表名称。

selectedColNames

选择全部列

输入表选择列名类型。

lifecycle

指定输出表的生命周期。

coreNum

默认自动计算

计算的核心数,取值范围为正整数,取值范围[1, 9999]。

memSizePerCore

默认自动计算

每个核心的内存,取值范围为1 MB~65536 MB。