Designer預置了羅吉斯迴歸演算法模板,便於您基於中學生的家庭背景及在校行為,通過羅吉斯迴歸演算法快速產生期末成績預測模型,從而獲得影響中學生學業的關鍵因素。本文為您介紹羅吉斯迴歸演算法預置模板的具體使用方法。
背景資訊
通過本工作流程獲得學生考試成績預測模型後,您可以將需要預測的內容上傳至MaxCompute表中,從而進行離線預測。
前提條件
資料集
本工作流程的資料集由25個特徵列和一個目標列組成,具體欄位如下。
欄位名 | 類型 | 描述 |
sex | STRING | 性別。F表示女,M表示男。 |
address | STRING | 住址。U表示城市,R表示鄉村。 |
famsize | STRING | 家庭成員數。LE3表示少於三人,GT3表示多於三人。 |
pstatus | STRING | 是否與父母一起住。T表示與父母一起住,A表示與父母分開住。 |
medu | DOUBLE | 母親的文化水平,從0~4表示學曆依次增高。 |
fedu | DOUBLE | 父親的文化水平,從0~4表示學曆依次增高。 |
mjob | STRING | 母親的工作,包括教師相關、健康相關及服務業。 |
fjob | STRING | 父親的工作,包括教師相關、健康相關及服務業。 |
guardian | STRING | 學生的監管人,包括mother、father及other。 |
traveltime | DOUBLE | 從家到學校需要的時間,單位為分鐘。 |
studytime | DOUBLE | 每周的學習時間,單位為小時。 |
failures | DOUBLE | 掛科次數。 |
schoolsup | STRING | 是否有額外的學習輔助,取值為yes或no。 |
fumsup | STRING | 是否有家教,取值為yes或no。 |
paid | STRING | 是否有相關考試學科的輔助,取值為yes或no。 |
activities | STRING | 是否有課外興趣班,取值為yes或no。 |
higher | STRING | 是否有向上求學意願,取值為yes或no。 |
internet | STRING | 家裡是否連網,取值為yes或no。 |
famrel | DOUBLE | 家庭關係,從1~5表示關係從差到好。 |
freetime | DOUBLE | 課餘時間量,從1~5表示課餘時間依次增多。 |
goout | DOUBLE | 與朋友出去玩的頻率,從1~5表示從少到多。 |
dalc | DOUBLE | 日飲酒量,從1~5表示從少到多。 |
walc | DOUBLE | 周飲酒量,從1~5表示從少到多。 |
health | DOUBLE | 健康情況,從1~5表示狀態從差到好。 |
absences | DOUBLE | 出勤量,取值範圍0次~93次。 |
g3 | STRING | 期末成績,使用20分製表示。 |
工作流程資料的樣本如下。
預測學生考試成績
進入Designer頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入Designer頁面。
構建工作流程。
在Designer頁面,單擊預置模板頁簽。
在模板列表的線上預測-中學產生績預測地區,單擊建立。
在建立工作流程對話方塊,配置參數(可以全部使用預設參數)。
其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的臨時資料和模型。
單擊確定。
您需要等待大約十秒鐘,工作流程可以建立成功。
在工作流程列表,雙擊線上預測-中學產生績預測工作流程,進入工作流程。
系統根據預置的模板,自動構建工作流程,如下圖所示。
地區
描述
①
資料預先處理。使用SQL指令碼組件將文本資料結構化:
將來源資料中的yes和no分別轉換為0和1。
對於多種類的文本型欄位,結合業務情境將資料抽象化。例如Mjob欄位,將teacher表示為1,其他值表示為0,即抽象後該特徵表示工作是否與教育相關。
對於目標列,將取值大於18的表示為1,反之表示為0。
②
使用歸一化組件將所有欄位轉換為0~1之間,從而消除欄位大小不均衡造成的影響。
③
將輸入資料集按照8:2的比例拆分為訓練資料集和預測資料集。
④
通過羅吉斯迴歸演算法,產生離線模型。
⑤
通過混淆矩陣組件評估模型準確率。
運行工作流程並查看輸出結果。
單擊畫布上方的運行按鈕,運行工作流程。
工作流程運行結束後,按右鍵畫布中的混淆矩陣,在捷徑功能表,單擊可視化分析。
在混淆矩陣對話方塊,單擊統計資訊頁簽,即可查看模型預測準確率為80%以上。
相關文檔
關於演算法組件更詳細的內容介紹,請參見: