特征重要性过滤组件为线性特征重要性、GBDT特征重要性和随机森林特征重要性等组件提供过滤功能,支持过滤TopN的特征。
组件配置
PAI命令
PAI -name fe_filter_runner -project algo_public
-DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome
-DinputTable=pai_dense_10_10
-DweightTable=pai_temp_2252_20319_1
-DtopN=5
-DmodelTable=pai_temp_2252_20320_2
-DoutputTable=pai_temp_2252_20320_1;
参数 | 描述 | 是否必选 |
---|---|---|
inputTable | 输入表名。 | 是 |
inputTablePartitions | 系统默认选择所有分区。指定输入表的分区:
|
否 |
weightTable | 特征重要性的权重表(即线性特征重要性、GBDT特征重要性、随机森林特征重要性的输出表)。 | 是 |
outputTable | 过滤出TopN特征的输出表。 | 是 |
modelTable | 特征过滤产出的模型文件。 | 是 |
selectedCols | 默认输入表的所有字段列名。 | 否 |
topN | TopN特征,默认10。
说明 仅支持输入正整数。
|
否 |
lifecycle | 输出表生命周期,默认7。
说明 仅支持输入正整数。
|
否 |