全部產品
Search
文件中心

Platform For AI:預測學生考試成績

更新時間:Jul 13, 2024

Designer預置了羅吉斯迴歸演算法模板,便於您基於中學生的家庭背景及在校行為,通過羅吉斯迴歸演算法快速產生期末成績預測模型,從而獲得影響中學生學業的關鍵因素。本文為您介紹羅吉斯迴歸演算法預置模板的具體使用方法。

背景資訊

通過本工作流程獲得學生考試成績預測模型後,您可以將需要預測的內容上傳至MaxCompute表中,從而進行離線預測。

前提條件

資料集

本工作流程的資料集由25個特徵列和一個目標列組成,具體欄位如下。

欄位名

類型

描述

sex

STRING

性別。F表示女,M表示男。

address

STRING

住址。U表示城市,R表示鄉村。

famsize

STRING

家庭成員數。LE3表示少於三人,GT3表示多於三人。

pstatus

STRING

是否與父母一起住。T表示與父母一起住,A表示與父母分開住。

medu

DOUBLE

母親的文化水平,從0~4表示學曆依次增高。

fedu

DOUBLE

父親的文化水平,從0~4表示學曆依次增高。

mjob

STRING

母親的工作,包括教師相關、健康相關及服務業。

fjob

STRING

父親的工作,包括教師相關、健康相關及服務業。

guardian

STRING

學生的監管人,包括motherfatherother

traveltime

DOUBLE

從家到學校需要的時間,單位為分鐘。

studytime

DOUBLE

每周的學習時間,單位為小時。

failures

DOUBLE

掛科次數。

schoolsup

STRING

是否有額外的學習輔助,取值為yesno

fumsup

STRING

是否有家教,取值為yesno

paid

STRING

是否有相關考試學科的輔助,取值為yesno

activities

STRING

是否有課外興趣班,取值為yesno

higher

STRING

是否有向上求學意願,取值為yesno

internet

STRING

家裡是否連網,取值為yesno

famrel

DOUBLE

家庭關係,從1~5表示關係從差到好。

freetime

DOUBLE

課餘時間量,從1~5表示課餘時間依次增多。

goout

DOUBLE

與朋友出去玩的頻率,從1~5表示從少到多。

dalc

DOUBLE

日飲酒量,從1~5表示從少到多。

walc

DOUBLE

周飲酒量,從1~5表示從少到多。

health

DOUBLE

健康情況,從1~5表示狀態從差到好。

absences

DOUBLE

出勤量,取值範圍0次~93次。

g3

STRING

期末成績,使用20分製表示。

工作流程資料的樣本如下。實驗樣本資料

預測學生考試成績

  1. 進入Designer頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。

    3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。

  2. 構建工作流程。

    1. Designer頁面,單擊預置模板頁簽。

    2. 在模板列表的線上預測-中學產生績預測地區,單擊建立

    3. 建立工作流程對話方塊,配置參數(可以全部使用預設參數)。

      其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的臨時資料和模型。

    4. 單擊確定

      您需要等待大約十秒鐘,工作流程可以建立成功。

    5. 在工作流程列表,雙擊線上預測-中學產生績預測工作流程,進入工作流程。

    6. 系統根據預置的模板,自動構建工作流程,如下圖所示。

      預測成績實驗

      地區

      描述

      資料預先處理。使用SQL指令碼組件將文本資料結構化:

      • 將來源資料中的yesno分別轉換為01

      • 對於多種類的文本型欄位,結合業務情境將資料抽象化。例如Mjob欄位,將teacher表示為1,其他值表示為0,即抽象後該特徵表示工作是否與教育相關。

      • 對於目標列,將取值大於18的表示為1,反之表示為0

      使用歸一化組件將所有欄位轉換為0~1之間,從而消除欄位大小不均衡造成的影響。

      將輸入資料集按照8:2的比例拆分為訓練資料集和預測資料集。

      通過羅吉斯迴歸演算法,產生離線模型。

      通過混淆矩陣組件評估模型準確率。

  3. 運行工作流程並查看輸出結果。

    1. 單擊畫布上方的運行按鈕image.png,運行工作流程。

    2. 工作流程運行結束後,按右鍵畫布中的混淆矩陣,在捷徑功能表,單擊可視化分析

    3. 混淆矩陣對話方塊,單擊統計資訊頁簽,即可查看模型預測準確率為80%以上。

相關文檔

關於演算法組件更詳細的內容介紹,請參見: