特征重要性过滤组件为线性特征重要性、GBDT特征重要性和随机森林特征重要性等组件提供过滤功能,支持过滤TopN的特征。

组件配置

PAI命令
PAI -name fe_filter_runner -project algo_public
    -DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome
    -DinputTable=pai_dense_10_10
    -DweightTable=pai_temp_2252_20319_1
    -DtopN=5
    -DmodelTable=pai_temp_2252_20320_2
    -DoutputTable=pai_temp_2252_20320_1;
参数 描述 是否必选
inputTable 输入表名。
inputTablePartitions 系统默认选择所有分区。指定输入表的分区:
  • 指定单个分区,格式为partition_name=value
  • 指定多个分区,格式为name1=value1,name2=value2
    说明 多个分区之间用英文逗号(,)分隔。
  • 指定多级分区,格式为name1=value1/name2=value2
weightTable 特征重要性的权重表(即线性特征重要性、GBDT特征重要性、随机森林特征重要性的输出表)。
outputTable 过滤出TopN特征的输出表。
modelTable 特征过滤产出的模型文件。
selectedCols 默认输入表的所有字段列名。
topN TopN特征,默认10。
说明 仅支持输入正整数。
lifecycle 输出表生命周期,默认7。
说明 仅支持输入正整数。