异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。
背景信息
异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency):
箱型图用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征。
AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。
组件配置
您可以使用以下任意一种方式,配置异常检测组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 特征列 | 选择需要分析的字段。 |
异常检测方法 | 选择检测的方法。箱型图用于检测连续类特征。AVF用于检测枚举类特征。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name fe_detect_runner -project algo_public
-DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
-Dlifecycle="28"
-DdetectStrategy="boxPlot"
-DmodelTable="pai_temp_2458_23565_2"
-DinputTable="pai_bank_data"
-DoutputTable="pai_temp_2458_23565_1";
参数名称 | 参数描述 | 是否必选 |
inputTable | 输入表的表名。 | 是 |
inputTablePartitions | 系统默认选择所有分区。指定输入表的分区:
| 否 |
selectedCols | 输入特征,字段类型没有限制。 | 是 |
detectStrategy | 系统支持Box-plot和AVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。 | 是 |
outputTable | 异常检测结果数据集,即检测到异常特征的数据集。 | 是 |
modelTable | 异常检测模型。 | 是 |
lifecycle | 输出表的生命周期,系统默认为7。 | 否 |
coreNum | 节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。 说明 仅支持配置正整数。 | 否 |
memSizePerCore | 单个结点内存大小,取值范围[2048,64 *1024],单位MB。 | 否 |