全部產品
Search
文件中心

Platform For AI:離線調度

更新時間:Jul 13, 2024

本工作流程以廣告CTR預測情境為例,為您介紹如何使用PAI提供的資料採礦組件進行離線調度。

背景資訊

本工作流程流程如下:

  1. 通過歷史資料,在阿里雲Machine Learning Platform for AI上進行模型訓練。

  2. 通過巨量資料開發套件對模型進行調度。

  3. 每天淩晨對廣告投放進行CTR預測,甄選出符合標準的廣告進行推送。

本工作流程資料集是通過Random演算法隨機產生的,因此不對工作流程結果進行評估,僅介紹如何構建工作流程及巨量資料開發套件調度。

步驟一:準備資料集

本工作流程訓練資料集包括2016年09月19日和2016年09月20日的歷史資料,針對2016年09月21日的資料進行預測,使用MaxCompute分區表。資料集的具體欄位如下。

欄位名

類型

描述

id

STRING

廣告的唯一標識。

age

DOUBLE

廣告投放人群的年齡。

sex

DOUBLE

廣告投放人群的性別。1表示男性,0表示女性。

duration

DOUBLE

廣告在介面的停留時間長度,單位為秒。

place

DOUBLE

廣告投放位置,按照投放位置從上到下的順序依次為0~4。

ctr

DOUBLE

廣告CTR。如果廣告點選量除以展現量的結果大於0.03,則該參數取值為1,反之為0

dt

STRING

年月日,格式為YYYYMMDD

您可以使用MaxCompute用戶端執行以下命令建立分區表ad。具體操作,請參見建立表

create table if not exists ad (id STRING,age DOUBLE,sex DOUBLE,duration DOUBLE,place DOUBLE,ctr DOUBLE ) partitioned by (dt STRING) ;
alter table ad add if not exists partition (dt='20160919') partition (dt='20160920');

本工作流程資料表ad的樣本如下。您可以使用Tunnel命令匯入分區表資料。具體操作,請參見匯入資料

id

age

sex

duration

place

ctr

dt

0

49

1

9

0

0

20160919

1

17

1

3

1

1

20160919

2

44

0

4

0

0

20160919

3

14

1

9

1

0

20160919

4

44

1

5

4

0

20160919

5

10

1

9

3

1

20160919

6

42

1

7

3

0

20160919

7

51

1

3

1

1

20160919

8

18

0

3

3

0

20160919

9

39

0

8

4

1

20160919

10

45

1

3

2

0

20160919

11

57

0

8

2

0

20160919

12

14

0

7

2

1

20160919

步驟二:建立工作流程

  1. 建立自訂工作流程,並進入工作流程,詳情請參見建立自訂工作流程

  2. 構建工作流程的流程。

    1. 在左側組件列表,將源/目標下的讀資料表組件向畫布中拖入兩個,並分別重新命名為ad-1ad-2

    2. 在左側組件列表,將資料預先處理下的歸一化組件向畫布中拖入兩個。

    3. 在左側組件列表,將機器學習 > 二分類下的羅吉斯迴歸二分類組件拖入畫布中。

    4. 在左側組件列表,將機器學習下的預測組件拖入畫布中。

    5. 在左側組件列表,將源/目標下的寫資料表組件拖入畫布中,並重新命名為ad_result-1

    6. 將以上組件拼接為如下工作流程。

      離線模型

      序號

      描述

      資料來源匯入。

      資料預先處理。

      模型訓練。

      預測。

  3. 配置組件參數。

    1. 分別單擊畫布中的ad-2(訓練資料來源)和ad-1(預測資料來源)組件,在右側面板,配置工作流程資料來源。

      頁簽

      參數

      描述

      表選擇

      表名

      輸入ad

      分區

      選中分區複選框。

      參數

      配置為 dt=@@{yyyyMMdd},確定預測資料為每天的增量資料。

      欄位資訊

      源表欄位資訊

      配置表選擇後,系統會自動同步該資料表的源表欄位資訊,無需手動設定。

    2. 分別單擊畫布中的歸一化-1歸一化-2組件,在右側面板欄位設定頁簽,單擊選擇欄位,選擇DOUBLE或INT類型的欄位。

    3. 單擊畫布中的羅吉斯迴歸二分類組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。

      頁簽

      參數

      描述

      欄位設定

      訓練特徵列

      選擇agesexdurationplace列。

      目標列

      選擇ctr列。

    4. 單擊畫布中的預測組件,在右側面板,配置參數(僅配置如下參數,其他參數使用預設值即可)。

      頁簽

      參數

      描述

      欄位設定

      特徵列

      選擇agesexdurationplace列。

      原樣輸出資料行

      選擇ctr列。

    5. 單擊畫布中的ad_result-1組件,在右側面板表選擇頁簽,配置寫入表表名為ad_result。

  4. 單擊畫布左上方的運行按鈕image,運行工作流程。

  5. 工作流程運行結束後,按右鍵畫布中的ad_result-1,在捷徑功能表,單擊查看資料 > 輸出,即可查看預測產生的結果表。

    其中:

    • prediction_result:表示每個廣告ID是否被點擊(1表示被點擊,0表示未被點擊)。

    • prediction_score:表示對應被點擊的機率。

步驟三:離線調度

  1. 使用DataWorks建立、配置並提交PAI任務,詳情請參見建立並使用PAI Studio節點

    配置調度任務時,將具體時間配置為每日淩晨0點進行訓練和推送資訊,詳情請參見時間屬性配置說明

  2. 在提交任務頁面,單擊右上方的營運,即可進入營運中心查看任務日誌,詳情請參見查看並管理周期任務

相關文檔