すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:回帰モデルの評価

最終更新日:Dec 11, 2024

回帰モデル評価とは、平均二乗誤差、平均絶対誤差、R二乗などの回帰メトリックを使用して、モデルの予測結果を実際の結果と比較することにより、モデルのパフォーマンスを定量化するプロセスを指します。 評価プロセス中に、予測誤差の分布特性を分析するために、残差ヒストグラムなどの視覚ツールが生成されることが多く、モデル改善のための潜在的な領域を特定するのに役立ちます。 このプロセスは、モデルが良好な予測能力および安定性を有することを保証します。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページに回帰モデル評価コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ

パラメーター

説明

フィールド設定

元の回帰値

回帰モデルの予測性能を評価し、比較の基礎として機能するために使用される、データセット内のターゲット変数の実際の観測値。

予測回帰値

回帰モデルを通じて得られたターゲット変数の推定値。 予測値は、入力特徴に基づいてモデルによって生成される。

チューニング

労働者番号

ワーカーの数とそのメモリを設定する方法については、「付録: リソース使用量を推定する方法」をご参照ください。

ノードあたりのメモリサイズ

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name regression_evaluation -project algo_public
    -DinputTableName=input_table
    -DyColName=y_col
    -DpredictionColName=prediction_col
    -DindexOutputTableName=index_output_table
    -DresidualOutputTableName=residual_output_table;

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

なし

入力テーブルの名前。

inputTablePartitions

不可

フルテーブル

計算のために入力テーブルから選択されたパーティション。

yColName

なし

入力テーブルの元の従属変数を含む列の名前。 数値データ型の列がサポートされています。

predictionColName

なし

予測結果の従属変数を含む列の名前。 数値データ型の列がサポートされています。

indexOutputTableName

なし

回帰メトリックの出力テーブルの名前。

residualOutputTableName

なし

残差のヒストグラムの出力テーブルの名前。

intervalNum

不可

100

ヒストグラムの間隔の数。

lifecycle

なし

出力テーブルのライフサイクル。 このパラメーターの値は正の整数でなければなりません。

coreNum

不可

システムによって決定される

コアの数。 有効な値: 1 ~ 9999

memSizePerCore

不可

システムによって決定される

各コアのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。

Output

回帰メトリックの出力テーブルはJSON形式で生成され、次のパラメーターが含まれます。

パラメーター

説明

SST

二乗の合計。

SSE

二乗誤差の合計。

SSR

回帰による二乗の合計。

R2

決定の係数。

R

複数の相関の係数。

MSE

平均二乗誤差。

RMSE

二乗平均平方根誤差。

MAE

平均絶対誤差。

MAD

平均絶対偏差。

MAPE

平均絶対パーセンテージエラー。

count

行の数。

yMean

元の従属変数の平均。

predictionMean

予測結果の平均。