二分類評估通過計算AUC、KS及F1 Score指標,輸出KS曲線、PR曲線、ROC曲線、LIFT Chart及Gain Chart。
組件配置
您可以使用以下任意一種方式,配置二分類評估組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
參數 | 描述 |
原始標籤列列名 | 目標列的名稱。 |
分數列列名 | 預測分數列,通常為prediction_score列。 |
正樣本的標籤值 | 正樣本的分類。 |
計算KS、PR等指標時按等頻分成多少個桶 | 將資料按照等頻劃分為桶的數量。 |
分組列列名 | 分組ID列。對各分組的資料分別計算評估指標,適用於分組評估情境。 |
進階選項 | 如果選中進階選項複選框,則預測結果詳細列、預測目標與評定目標是否一致及儲存效能指標參數生效。 |
預測結果詳細列 | 預測結果詳細列的名稱。 |
預測目標與評定目標是否一致 | 例如,在金融情境中,訓練程式預測壞人的機率,其值越大,表示樣本越壞,相關指標(例如LIFT)評估的是抓壞率,此時預測目標與評定目標一致。在信用評分情境中,訓練程式預測好人的機率,其值越大,表示樣本越好,而相關指標評估的是抓壞率,此時預測目標與評定目標不一致。 |
儲存效能指標 | 儲存效能指標的開關。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name=evaluate -project=algo_public
-DoutputMetricTableName=output_metric_table
-DoutputDetailTableName=output_detail_table
-DinputTableName=input_data_table
-DlabelColName=label
-DscoreColName=score
參數 | 是否必選 | 參數描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入表的分區。 | 全表 |
labelColName | 是 | 目標列的名稱。 | 無 |
scoreColName | 是 | 分數列的名稱。 | 無 |
groupColName | 否 | 分組列的名稱,用於分組評估情境。 | 無 |
binCount | 否 | 計算KS及PR等指標時,按照等頻將資料分成的桶數量。 | 1000 |
outputMetricTableName | 是 | 輸出的指標表,包括AUC、KS及F1 Score指標。 | 無 |
outputDetailTableName | 否 | 用於畫圖的詳細資料表。 | 無 |
positiveLabel | 否 | 正樣本的分類。 | 1 |
lifecycle | 否 | 輸出表的生命週期。 | 無 |
coreNum | 否 | 核心數量。 | 系統自動計算 |
memSizePerCore | 否 | 每個核心的記憶體。 | 系統自動計算 |