混淆矩陣(Confusion Matrix)適用於監督學習,與無監督學習中的匹配矩陣對應。在精度評價中,混淆矩陣主要用於比較分類結果和實際測量值,可以將分類結果的精度顯示在一個矩陣中。本文為您介紹混淆矩陣組件的配置方法。
使用限制
支援的計算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置混淆矩陣組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
參數 | 描述 |
原資料的標籤列列名 | 支援數實值型別。 |
預測結果的標籤列列名 | 如果未配置閾值,則該參數必選。 |
閾值 | 大於該參數值的樣本為正樣本。 |
預測結果的詳細列列名 | 與預測結果的標籤列列名不能共存。如果已配置閾值,則該參數必選。 |
正樣本的標籤值 | 如果已配置閾值,則該參數必選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
未指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionColName=prediction_result;
指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionDetailColName=prediction_detail -Dthreshold=0.8 -DgoodValue=N;
參數 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱,即預測輸出表。 | 無 |
inputTablePartition | 否 | 輸入表的分區。 | 全表 |
outputTableName | 是 | 輸出表的名稱,用於儲存混淆矩陣。 | 無 |
labelColName | 是 | 原始標籤列的名稱。 | 無 |
predictionColName | 否 | 預測結果列的名稱。如果未配置threshold,則該參數必選。 | 無 |
predictionDetailColName | 否 | 預測結果詳細列的名稱。如果已配置threshold,則該參數必選。 | 無 |
threshold | 否 | 劃分正樣本的閾值。 | 0.5 |
goodValue | 否 | 二分類時,指定訓練係數對應的標籤值。如果已配置threshold,則該參數必選。 | 無 |
coreNum | 否 | 計算的核心數量。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體,單位為MB。 | 系統自動分配 |
lifecycle | 否 | 輸出表的生命週期。 | 無 |
樣本
用MaxCompute用戶端建立表test_data,其中欄欄位和資料類型為
id bigint、label string、prediction_result string
。關於MaxCompute用戶端的安裝及配置請參見使用本地用戶端(odpscmd)串連,如何建立表,請參見建立表。將如下測試資料匯入到表test_data中。如何匯入資料,請參見匯入資料。
id
label
prediction_result
0
A
A
1
A
B
2
A
A
3
A
A
4
B
B
5
B
B
6
B
A
7
B
B
8
B
A
9
A
A
構建如下工作流程,並運行組件,詳情請參見演算法建模。
在Designer左側組件列表中,分別搜尋讀資料表組件和混淆矩陣組件,並拖入右側畫布中。
參照上圖,通過連線的方式,將各個節點群組織構建成為一個有上下遊關係的工作流程。
配置組件參數。
在畫布中單擊讀資料表-1組件,在右側表選擇頁簽,配置表名為test_data。
在畫布中單擊混淆矩陣-1組件,在右側配置如下表中的參數,其餘參數使用預設值。
參數
描述
原資料的標籤列列名
選擇label列。
預測結果的標籤列列名
輸入prediction_result。
參數配置完成後,單擊運行按鈕,運行工作流程。
工作流程運行成功後,按右鍵混淆矩陣-1組件,在捷徑功能表,選擇可視化分析,查看混淆矩陣組件的輸出結果。
單擊混淆矩陣頁簽,查看輸出的混淆矩陣。
單擊統計資訊頁簽,查看模型統計資訊。
相關文檔
關於Designer組件更詳細的內容介紹,請參見Designer概述。
Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總。