全部產品
Search
文件中心

Platform For AI:迴歸模型評估

更新時間:Nov 27, 2024

迴歸模型評估是指通過比較模型的預測結果與真實結果,使用迴歸指標(如均方誤差、平均絕對誤差、決定係數等)來量化模型的效能優劣。評估過程中,通常還會產生殘差長條圖等視覺化檢視,以便分析預測誤差的分布特性,協助識別模型潛在的改進空間。此過程可確保模型具備良好的預測能力和穩定性。

配置組件

方式一:可視化方式

在Designer工作流程頁面添加迴歸模型評估組件,並在介面右側配置相關參數:

參數類型

參數

描述

欄位設定

原迴歸值

資料集中目標變數的實際觀測值,用於評估迴歸模型的預測效能,作為比較的基準。

預測迴歸值

通過迴歸模型計算得到的目標變數的估計值。模型根據輸入特徵產生這些預測值。

執行調優

節點個數

節點個數和單節點佔用的記憶體大小配置方法請參見附錄:如何預估資源的使用量

單個節點記憶體大小

方式二:PAI命令方式

使用PAI命令配置迴歸模型評估組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令

PAI -name regression_evaluation -project algo_public
    -DinputTableName=input_table
    -DyColName=y_col
    -DpredictionColName=prediction_col
    -DindexOutputTableName=index_output_table
    -DresidualOutputTableName=residual_output_table;

參數

是否必選

預設值

描述

inputTableName

輸入表的名稱。

inputTablePartitions

全表

輸入表中,參與計算的分區。

yColName

輸入表中,原始因變數的列名,支援數實值型別。

predictionColName

預測結果中,因變數的列名,支援數實值型別。

indexOutputTableName

迴歸指標輸出表的名稱。

residualOutputTableName

殘差長條圖輸出表的名稱。

intervalNum

100

長條圖區間數量。

lifecycle

輸出表的生命週期,取值範圍為正整數。

coreNum

系統自動化佈建

Instance數量,取值範圍為1~9999。

memSizePerCore

系統自動化佈建

每個核心的記憶體,取值範圍為1024 MB~64*1024 MB。

組件輸出

迴歸指標輸出表的結果為JSON格式,包括以下參數:

參數

描述

SST

總平方和

SSE

誤差平方和

SSR

迴歸平方和

R2

判定係數

R

多重相關係數

MSE

均方誤差

RMSE

均方根誤差

MAE

平均絕對誤差

MAD

平均絕對偏差

MAPE

平均絕對百分誤差

count

行數

yMean

原始因變數的均值

predictionMean

預測結果的均值