二分类评估通过计算AUC、KS及F1 Score指标,输出KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart。
组件配置
您可以使用以下任意一种方式,配置二分类评估组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
参数 | 描述 |
原始标签列列名 | 目标列的名称。 |
分数列列名 | 预测分数列,通常为prediction_score列。 |
正样本的标签值 | 正样本的分类。 |
计算KS、PR等指标时按等频分成多少个桶 | 将数据按照等频划分为桶的数量。 |
分组列列名 | 分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。 |
高级选项 | 如果选中高级选项复选框,则预测结果详细列、预测目标与评估目标是否一致及保存性能指标参数生效。 |
预测结果详细列 | 预测结果详细列的名称。 |
预测目标与评估目标是否一致 | 例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。 |
保存性能指标 | 保存性能指标的开关。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name=evaluate -project=algo_public
-DoutputMetricTableName=output_metric_table
-DoutputDetailTableName=output_detail_table
-DinputTableName=input_data_table
-DlabelColName=label
-DscoreColName=score
参数 | 是否必选 | 参数描述 | 默认值 |
inputTableName | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表的分区。 | 全表 |
labelColName | 是 | 目标列的名称。 | 无 |
scoreColName | 是 | 分数列的名称。 | 无 |
groupColName | 否 | 分组列的名称,用于分组评估场景。 | 无 |
binCount | 否 | 计算KS及PR等指标时,按照等频将数据分成的桶数量。 | 1000 |
outputMetricTableName | 是 | 输出的指标表,包括AUC、KS及F1 Score指标。 | 无 |
outputDetailTableName | 否 | 用于画图的详细数据表。 | 无 |
positiveLabel | 否 | 正样本的分类。 | 1 |
lifecycle | 否 | 输出表的生命周期。 | 无 |
coreNum | 否 | 核心数量。 | 系统自动计算 |
memSizePerCore | 否 | 每个核心的内存。 | 系统自动计算 |