線性迴歸是數理統計中的迴歸分析方法,可以確定兩種或兩種以上變數之間相互依賴的定量關係。Designer預置了線性迴歸演算法模板,便於您通過農業貸款的歷史發放情況,快速實現貸款發放預測。本文為您介紹Designer線性迴歸演算法預置模板的具體使用方法。
背景資訊
農業貸款發放問題是一個典型的資料採礦問題。貸款發放人通過歷史貸款資料(包括貸款人的年度營收、種植作物種類及歷史借貸資訊等)構建經驗模型,並預測受貸人的還款能力。
本工作流程資料為虛構,僅供學習。
前提條件
資料集
本工作流程的資料集包括如下欄位。
欄位名 | 類型 | 描述 |
id | STRING | 資料唯一識別碼。 |
name | STRING | 使用者名稱。 |
region | STRING | 使用者所屬地區,從北到南排列。 |
farmsize | DOUBLE | 土地面積。 |
rainfall | DOUBLE | 降雨量。 |
landquality | DOUBLE | 土地品質,該參數取值越大越好。 |
farmincome | DOUBLE | 年度營收。 |
maincrop | STRING | 種植作物的種類。 |
claimtype | STRING | 貸款類型。 |
claimvalue | DOUBLE | 貸款金額。 |
基於迴歸演算法預測農業貸款發放
進入Designer頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入Designer頁面。
構建工作流程。
在Designer頁面,單擊預置模板頁簽。
在工作流程範本列表的農業貸款預測的迴歸演算法實現地區,單擊建立。
在建立工作流程對話方塊,配置參數(可以全部使用預設參數)。
其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的臨時資料和模型。
單擊確定。
您需要等待大約十秒鐘,工作流程可以建立成功。
在工作流程列表,選擇農業貸款預測的迴歸演算法實現工作流程,單擊進入工作流程。
系統根據預置的模板,自動構建工作流程,如下圖所示。
地區
描述
①
讀資料表讀入的資料為工作流程資料集,包括:
貸款訓練集:共一百條歷史貸款資料,包括farmsize及rainfall等特徵,用於訓練迴歸模型。其中claimvalue表示貸款收回的金額。
貸款預測集:共七十一人,指今年申請貸款者。其中claimvalue表示申請的貸款金額。
本工作流程通過貸款訓練集中的歷史資料,預測為貸款預測集中的哪些申請人發放貸款。
②
根據含義將字串類型的資料對應為數字。以region欄位為例,先將其中的north、middle及south按照從北到南的順序分別映射為0、1及2,再將其轉換為DOUBLE類型。
③
首先使用線性迴歸組件對歷史資料進行訓練並產生迴歸模型。然後在預測組件中利用迴歸模型對預測資料集進行貸款發放預測。最後通過合并列組件將使用者ID、預測值及申請的貸款值合并,結果如下圖所示。其中prediction_score表示使用者的還貸能力(預期可以歸還的金額)。
④
使用迴歸模型評估組件進行模型評估,評估指標詳情請參見評估指標。
⑤
通過過濾與映射組件篩選可以獲得貸款的使用者。對於每個申請貸款人,如果預測獲得該貸款人的還款能力大於其申請的貸款金額,則發放貸款。
表 1. 評估指標
欄位名稱
描述
MAE
平均絕對誤差
MAPE
平均絕對百分誤差
MSE
均方誤差
R
多重相關係數
R2
判定係數
RMSE
均方根誤差
SAE
絕對誤差和
SSE
誤差平方和
SSR
迴歸平方和
SST
總平方和
count
行數
predictionMean
預測結果的均值
yMean
原始因變數的均值
運行工作流程並查看輸出結果。
單擊畫布上方的運行按鈕,運行工作流程。
工作流程運行結束後,按右鍵畫布中的過濾與映射,在捷徑功能表,單擊 ,即可查看可以為其發放貸款的使用者。
相關文檔
關於演算法組件更詳細的內容介紹,請參見: