回帰モデル評価とは、平均二乗誤差、平均絶対誤差、R二乗などの回帰メトリックを使用して、モデルの予測結果を実際の結果と比較することにより、モデルのパフォーマンスを定量化するプロセスを指します。 評価プロセス中に、予測誤差の分布特性を分析するために、残差ヒストグラムなどの視覚ツールが生成されることが多く、モデル改善のための潜在的な領域を特定するのに役立ちます。 このプロセスは、モデルが良好な予測能力および安定性を有することを保証します。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
パイプラインページに回帰モデル評価コンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | 元の回帰値 | 回帰モデルの予測性能を評価し、比較の基礎として機能するために使用される、データセット内のターゲット変数の実際の観測値。 |
予測回帰値 | 回帰モデルを通じて得られたターゲット変数の推定値。 予測値は、入力特徴に基づいてモデルによって生成される。 | |
チューニング | 労働者番号 | ワーカーの数とそのメモリを設定する方法については、「付録: リソース使用量を推定する方法」をご参照ください。 |
ノードあたりのメモリサイズ |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name regression_evaluation -project algo_public
-DinputTableName=input_table
-DyColName=y_col
-DpredictionColName=prediction_col
-DindexOutputTableName=index_output_table
-DresidualOutputTableName=residual_output_table;
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 可 | なし | 入力テーブルの名前。 |
inputTablePartitions | 不可 | フルテーブル | 計算のために入力テーブルから選択されたパーティション。 |
yColName | 可 | なし | 入力テーブルの元の従属変数を含む列の名前。 数値データ型の列がサポートされています。 |
predictionColName | 可 | なし | 予測結果の従属変数を含む列の名前。 数値データ型の列がサポートされています。 |
indexOutputTableName | 可 | なし | 回帰メトリックの出力テーブルの名前。 |
residualOutputTableName | 可 | なし | 残差のヒストグラムの出力テーブルの名前。 |
intervalNum | 不可 | 100 | ヒストグラムの間隔の数。 |
lifecycle | ✕ | なし | 出力テーブルのライフサイクル。 このパラメーターの値は正の整数でなければなりません。 |
coreNum | 不可 | システムによって決定される | コアの数。 有効な値: 1 ~ 9999 |
memSizePerCore | 不可 | システムによって決定される | 各コアのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。 |
Output
回帰メトリックの出力テーブルはJSON形式で生成され、次のパラメーターが含まれます。
パラメーター | 説明 |
SST | 二乗の合計。 |
SSE | 二乗誤差の合計。 |
SSR | 回帰による二乗の合計。 |
R2 | 決定の係数。 |
R | 複数の相関の係数。 |
MSE | 平均二乗誤差。 |
RMSE | 二乗平均平方根誤差。 |
MAE | 平均絶対誤差。 |
MAD | 平均絶対偏差。 |
MAPE | 平均絶対パーセンテージエラー。 |
count | 行の数。 |
yMean | 元の従属変数の平均。 |
predictionMean | 予測結果の平均。 |