線形回帰は、数理統計学における一般的な回帰分析方法です。 このメソッドを使用して、2つ以上の変数間の量的関係を見つけることができます。 Machine Learning Designerは、事前設定された線形回帰テンプレートを提供し、過去のローン記録に基づいて農業ローン申請者の返済能力を予測するモデルを構築するのに役立ちます。 このトピックでは、プリセット線形回帰テンプレートの使用方法について説明します。
背景情報
農業ローン申請者の返済能力予測は、典型的なデータマイニングプロセスです。 ローン貸し手は、年収、作物の種類、ローンの記録などの申請者の履歴データに基づいて経験的モデルを構築し、そのモデルを使用してローン申請者の返済能力を予測できます。
このトピックで使用されるデータセットは、実験用にのみ使用されます。
前提条件
ワークスペースが作成済み。 詳細については、「ワークスペースの作成」をご参照ください。
MaxComputeリソースはワークスペースに関連付けられています。 詳細については、「ワークスペースの管理」をご参照ください。
データセット
このトピックで使用されるデータセットには、次のフィールドが含まれます。
項目 | データ型 | 説明 |
id | STRING | 申請者の一意のID。 |
name | STRING | 申請者の名前。 |
region | STRING | 申請者が居住する地理的地域。 有効な値: 北、中、南。 |
farmsize | DOUBLE | 農地の大きさ。 |
降雨量 | DOUBLE | この地域の降雨量。 |
landquality | DOUBLE | 農地の質。 値が大きいほど品質が良いことを示す。 |
farmincome | DOUBLE | 申請者の年収。 |
maincrop | STRING | 作物のタイプ。 |
claimtype | STRING | ローンタイプ。 |
claimvalue | DOUBLE | ローンの金額。 |
手順
Machine Learning Designerページに移動します。
PAIコンソールにログインします。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、管理するワークスペースの名前をクリックします。
ワークスペースページの左側のナビゲーションウィンドウで、 機械学習デザイナーページに移動します。
パイプラインを作成します。
可视化モデリング (デザイナー)ページで、プリセットテンプレートタブをクリックします。
プリセットテンプレートタブで、農業ローン予測テンプレートを検索し、作成をクリックします。
[パイプラインの作成] ダイアログボックスで、必要なパラメーターを設定します。 デフォルト値を使用できます。
Pipeline Data Pathパラメーターの値は、パイプラインの実行時に生成される一時データとモデルのObject Storage Service (OSS) パスを示します。
[OK] をクリックします。
パイプラインの作成には約10秒かかります。
[パイプライン] タブで、作成したパイプラインを選択し、開く.
キャンバス上のパイプラインのコンポーネントを表示します。 次の図は、プリセットテンプレートに基づいて自動的に作成されるパイプラインを示しています。
セクション
説明
1
このセクションのコンポーネントは、パイプラインで使用される次のデータセットを読み取ります。
トレーニングデータセット: 線形回帰モデルのトレーニングに使用される100の履歴レコードが含まれます。 データセットには、farmsize、inrain、claimvalueなどのフィールドが含まれています。 claimvalueフィールドは、回収されたローン額を示す。
予測データセット: 今年農業ローンを申請する71人のローン申請者に関する情報が含まれています。 claimvalueフィールドは、要求されたローン額を示す。
パイプラインは、トレーニングデータセットの履歴レコードに基づいて、予測データセットの応募者の返済能力を予測します。
2
このセクションのコンポーネントは、STRING型のフィールド値をDOUBLE型に変換します。 たとえば、regionフィールドの有効な値は、north、middle、southです。 このセクションのコンポーネントは、これらの値を数値 (それぞれ0、1、2) にマッピングし、数値をDOUBLEタイプに変換します。
3
線形回帰コンポーネントは、トレーニングデータセットの履歴レコードを使用して、回帰モデルをトレーニングおよび生成します。 予測コンポーネントは、回帰モデルを使用して、申請者が返済できるローン額を予測します。 [追加列] コンポーネントは、次の図に示すように、予測結果のid、prediction_score、およびclaimvalue列をマージします。 prediction_scoreフィールドは、申請者が返済できる予測金額を示す。
4
Evaluationコンポーネントは、モデルの予測パフォーマンスを評価します。 評価メトリックの詳細については、「表1 (評価メトリック) 」をご参照ください。
5
Sq1マッピングコンポーネントは、予測返済額を要求されたローン額と比較することによって適格なローン申請者を識別する。 予測された返済額が要求されたローン額よりも高い場合、申請者は適格と見なされます。
表 1. 評価メトリック
メトリック
説明
MAE
平均絶対誤差。
MAPE
平均絶対パーセンテージエラー。
MSE
平均二乗エラー。
R
複数の相関の係数。
アカウントの作成
決定の係数。
RMSE
二乗平均平方根誤差。
SAE
絶対エラーの合計。
SSE
二乗誤差の合計。
SSR
回帰による二乗の合計。
SST
二乗の合計。
集計
行の数。
predictionMean
予測結果の平均。
yMean
元の従属変数の平均。
パイプラインを実行し、予測結果を表示します。
キャンバスの左上隅で、[実行] をクリックします。アイコンが表示されます。
パイプラインが完了したら、キャンバス上で [Sqlマッピング] コンポーネントを右クリックし、 を選択します。 表示されるタブで、適格なローン申請者を表示できます。
関連ドキュメント
アルゴリズムコンポーネントの詳細については、以下のトピックを参照してください。