全部產品
Search
文件中心

Platform For AI:混淆矩陣

更新時間:Jul 13, 2024

混淆矩陣(Confusion Matrix)適用於監督學習,與無監督學習中的匹配矩陣對應。在精度評價中,混淆矩陣主要用於比較分類結果和實際測量值,可以將分類結果的精度顯示在一個矩陣中。本文為您介紹混淆矩陣組件的配置方法。

使用限制

支援的計算引擎為MaxCompute。

組件配置

您可以使用以下任意一種方式,配置混淆矩陣組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

參數

描述

原資料的標籤列列名

支援數實值型別。

預測結果的標籤列列名

如果未配置閾值,則該參數必選。

閾值

大於該參數值的樣本為正樣本。

預測結果的詳細列列名

預測結果的標籤列列名不能共存。如果已配置閾值,則該參數必選。

正樣本的標籤值

如果已配置閾值,則該參數必選。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

  • 未指定閾值

    pai -name confusionmatrix -project algo_public
        -DinputTableName=wpbc_pred
        -DoutputTableName=wpbc_confu
        -DlabelColName=label
        -DpredictionColName=prediction_result;
  • 指定閾值

    pai -name confusionmatrix -project algo_public
        -DinputTableName=wpbc_pred
        -DoutputTableName=wpbc_confu
        -DlabelColName=label
        -DpredictionDetailColName=prediction_detail
        -Dthreshold=0.8
        -DgoodValue=N;

參數

是否必選

描述

預設值

inputTableName

輸入表的名稱,即預測輸出表。

inputTablePartition

輸入表的分區。

全表

outputTableName

輸出表的名稱,用於儲存混淆矩陣。

labelColName

原始標籤列的名稱。

predictionColName

預測結果列的名稱。如果未配置threshold,則該參數必選。

predictionDetailColName

預測結果詳細列的名稱。如果已配置threshold,則該參數必選。

threshold

劃分正樣本的閾值。

0.5

goodValue

二分類時,指定訓練係數對應的標籤值。如果已配置threshold,則該參數必選。

coreNum

計算的核心數量。

系統自動分配

memSizePerCore

每個核心的記憶體,單位為MB。

系統自動分配

lifecycle

輸出表的生命週期。

樣本

  1. 用MaxCompute用戶端建立表test_data,其中欄欄位和資料類型為id bigint、label string、prediction_result string。關於MaxCompute用戶端的安裝及配置請參見使用本地用戶端(odpscmd)串連,如何建立表,請參見建立表

  2. 將如下測試資料匯入到表test_data中。如何匯入資料,請參見匯入資料

    id

    label

    prediction_result

    0

    A

    A

    1

    A

    B

    2

    A

    A

    3

    A

    A

    4

    B

    B

    5

    B

    B

    6

    B

    A

    7

    B

    B

    8

    B

    A

    9

    A

    A

  3. 構建如下工作流程,並運行組件,詳情請參見演算法建模混淆矩陣實驗

    1. 在Designer左側組件列表中,分別搜尋讀資料表組件和混淆矩陣組件,並拖入右側畫布中。

    2. 參照上圖,通過連線的方式,將各個節點群組織構建成為一個有上下遊關係的工作流程。

    3. 配置組件參數。

      • 在畫布中單擊讀資料表-1組件,在右側表選擇頁簽,配置表名為test_data。

      • 在畫布中單擊混淆矩陣-1組件,在右側配置如下表中的參數,其餘參數使用預設值。

        參數

        描述

        原資料的標籤列列名

        選擇label列。

        預測結果的標籤列列名

        輸入prediction_result

    4. 參數配置完成後,單擊運行按鈕image,運行工作流程。

  4. 工作流程運行成功後,按右鍵混淆矩陣-1組件,在捷徑功能表,選擇可視化分析,查看混淆矩陣組件的輸出結果。

    • 單擊混淆矩陣頁簽,查看輸出的混淆矩陣。

      image

    • 單擊統計資訊頁簽,查看模型統計資訊。

      image

相關文檔

  • 關於Designer組件更詳細的內容介紹,請參見Designer概述

  • Designer預置了多種演算法組件,你可以根據不同的使用情境選擇合適的組件進行資料處理,詳情請參見組件參考:所有組件匯總