迴歸模型評估是指通過比較模型的預測結果與真實結果,使用迴歸指標(如均方誤差、平均絕對誤差、決定係數等)來量化模型的效能優劣。評估過程中,通常還會產生殘差長條圖等視覺化檢視,以便分析預測誤差的分布特性,協助識別模型潛在的改進空間。此過程可確保模型具備良好的預測能力和穩定性。
配置組件
方式一:可視化方式
在Designer工作流程頁面添加迴歸模型評估組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
欄位設定 | 原迴歸值 | 資料集中目標變數的實際觀測值,用於評估迴歸模型的預測效能,作為比較的基準。 |
預測迴歸值 | 通過迴歸模型計算得到的目標變數的估計值。模型根據輸入特徵產生這些預測值。 | |
執行調優 | 節點個數 | 節點個數和單節點佔用的記憶體大小配置方法請參見附錄:如何預估資源的使用量。 |
單個節點記憶體大小 |
方式二:PAI命令方式
使用PAI命令配置迴歸模型評估組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
PAI -name regression_evaluation -project algo_public
-DinputTableName=input_table
-DyColName=y_col
-DpredictionColName=prediction_col
-DindexOutputTableName=index_output_table
-DresidualOutputTableName=residual_output_table;
參數 | 是否必選 | 預設值 | 描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 全表 | 輸入表中,參與計算的分區。 |
yColName | 是 | 無 | 輸入表中,原始因變數的列名,支援數實值型別。 |
predictionColName | 是 | 無 | 預測結果中,因變數的列名,支援數實值型別。 |
indexOutputTableName | 是 | 無 | 迴歸指標輸出表的名稱。 |
residualOutputTableName | 是 | 無 | 殘差長條圖輸出表的名稱。 |
intervalNum | 否 | 100 | 長條圖區間數量。 |
lifecycle | 否 | 無 | 輸出表的生命週期,取值範圍為正整數。 |
coreNum | 否 | 系統自動化佈建 | Instance數量,取值範圍為1~9999。 |
memSizePerCore | 否 | 系統自動化佈建 | 每個核心的記憶體,取值範圍為1024 MB~64*1024 MB。 |
組件輸出
迴歸指標輸出表的結果為JSON格式,包括以下參數:
參數 | 描述 |
SST | 總平方和 |
SSE | 誤差平方和 |
SSR | 迴歸平方和 |
R2 | 判定係數 |
R | 多重相關係數 |
MSE | 均方誤差 |
RMSE | 均方根誤差 |
MAE | 平均絕對誤差 |
MAD | 平均絕對偏差 |
MAPE | 平均絕對百分誤差 |
count | 行數 |
yMean | 原始因變數的均值 |
predictionMean | 預測結果的均值 |