二分类评估 - 人工智能平台 PAI

二分类评估是一种用于评估二分类模型性能的技术，通过计算AUC、KS及F1 Score等指标进行评估。该评估方法输出包括KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart，用以全面展示模型的分类效果和性能。

配置组件

方式一：可视化方式

在Designer工作流页面添加二分类评估组件，并在界面右侧配置相关参数：

参数	描述
原始标签列列名	目标列的名称。
分数列列名	预测分数列，通常为prediction_score列。
正样本的标签值	正样本的分类。
计算KS、PR等指标时按等频分成多少个桶	将数据按照等频划分为桶的数量。
分组列列名	分组ID列。对各分组的数据分别计算评估指标，适用于分组评估场景。
高级选项	如果选中高级选项复选框，则预测结果详细列、预测目标与评估目标是否一致及保存性能指标参数生效。
预测结果详细列	预测结果详细列的名称。
预测目标与评估目标是否一致	例如，在金融场景中，训练程序预测坏人的概率，其值越大，表示样本越坏，相关指标（例如LIFT）评估的是抓坏率，此时预测目标与评估目标一致。在信用评分场景中，训练程序预测好人的概率，其值越大，表示样本越好，而相关指标评估的是抓坏率，此时预测目标与评估目标不一致。
保存性能指标	保存性能指标的开关。

方式二：PAI命令方式

使用PAI命令配置二分类评估组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

PAI -name=evaluate -project=algo_public
    -DoutputMetricTableName=output_metric_table
    -DoutputDetailTableName=output_detail_table
    -DinputTableName=input_data_table
    -DlabelColName=label
    -DscoreColName=score

参数	是否必选	默认值	参数描述
inputTableName	是	无	输入表的名称。
inputTablePartitions	否	全表	输入表的分区。
labelColName	是	无	目标列的名称。
scoreColName	是	无	分数列的名称。
groupColName	否	无	分组列的名称，用于分组评估场景。
binCount	否	1000	计算KS及PR等指标时，按照等频将数据分成的桶数量。
outputMetricTableName	是	无	输出的指标表，包括AUC、KS及F1 Score指标。
outputDetailTableName	否	无	用于画图的详细数据表。
positiveLabel	否	1	正样本的分类。
lifecycle	否	无	输出表的生命周期。
coreNum	否	系统自动计算	核心数量。
memSizePerCore	否	系统自动计算	每个核心的内存。