回帰モデルの評価 - Platform For AI - Alibaba Cloud ドキュメントセンター

回帰モデル評価とは、平均二乗誤差、平均絶対誤差、R二乗などの回帰メトリックを使用して、モデルの予測結果を実際の結果と比較することにより、モデルのパフォーマンスを定量化するプロセスを指します。評価プロセス中に、予測誤差の分布特性を分析するために、残差ヒストグラムなどの視覚ツールが生成されることが多く、モデル改善のための潜在的な領域を特定するのに役立ちます。このプロセスは、モデルが良好な予測能力および安定性を有することを保証します。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

パイプラインページに回帰モデル評価コンポーネントを追加し、次のパラメーターを設定します。

カテゴリ	パラメーター	説明
フィールド設定	元の回帰値	回帰モデルの予測性能を評価し、比較の基礎として機能するために使用される、データセット内のターゲット変数の実際の観測値。
フィールド設定	予測回帰値	回帰モデルを通じて得られたターゲット変数の推定値。予測値は、入力特徴に基づいてモデルによって生成される。
チューニング	労働者番号	ワーカーの数とそのメモリを設定する方法については、「付録: リソース使用量を推定する方法」をご参照ください。
チューニング	ノードあたりのメモリサイズ	ワーカーの数とそのメモリを設定する方法については、「付録: リソース使用量を推定する方法」をご参照ください。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「SQLスクリプト」をご参照ください。

PAI -name regression_evaluation -project algo_public
    -DinputTableName=input_table
    -DyColName=y_col
    -DpredictionColName=prediction_col
    -DindexOutputTableName=index_output_table
    -DresidualOutputTableName=residual_output_table;

パラメーター	必須 / 任意	デフォルト値	説明
inputTableName	可	なし	入力テーブルの名前。
inputTablePartitions	不可	フルテーブル	計算のために入力テーブルから選択されたパーティション。
yColName	可	なし	入力テーブルの元の従属変数を含む列の名前。数値データ型の列がサポートされています。
predictionColName	可	なし	予測結果の従属変数を含む列の名前。数値データ型の列がサポートされています。
indexOutputTableName	可	なし	回帰メトリックの出力テーブルの名前。
residualOutputTableName	可	なし	残差のヒストグラムの出力テーブルの名前。
intervalNum	不可	100	ヒストグラムの間隔の数。
lifecycle	✕	なし	出力テーブルのライフサイクル。このパラメーターの値は正の整数でなければなりません。
coreNum	不可	システムによって決定される	コアの数。有効な値: 1 ~ 9999
memSizePerCore	不可	システムによって決定される	各コアのメモリサイズ。有効値: 1024〜64 × 1024。単位：MB。

Output

回帰メトリックの出力テーブルはJSON形式で生成され、次のパラメーターが含まれます。

パラメーター	説明
SST	二乗の合計。
SSE	二乗誤差の合計。
SSR	回帰による二乗の合計。
R2	決定の係数。
R	複数の相関の係数。
MSE	平均二乗誤差。
RMSE	二乗平均平方根誤差。
MAE	平均絶対誤差。
MAD	平均絶対偏差。
MAPE	平均絶対パーセンテージエラー。
count	行の数。
yMean	元の従属変数の平均。
predictionMean	予測結果の平均。