全部產品
Search
文件中心

MaxCompute:快速體驗

更新時間:Jul 10, 2024

本實驗採用DataWorks+MaxCompute產品組合,為您介紹DataWorks的基本使用。

快速體驗

本案例中,資料同步和資料加工的部分任務可以通過ETL工作流程範本一鍵匯入。在匯入模板後,您可以前往目標空間,並自行完成後續的資料品質監控和資料視覺效果操作。

實驗介紹

實驗背景

以網站使用者Portrait analysis為背景,通過使用DataWorks完成以下情境。

  • 資料同步

  • 資料加工

  • 配置資料品質監控

  • 資料視覺效果展現

目標人群

開發工程師、資料分析師、產品營運等存在數倉資料擷取與資料分析洞察人員。

涉及產品

本案例涉及以下產品:

  • image.png一站式巨量資料開發治理DataWorks

    本案例通過DataWorks實現資料同步、加工、品質監控,以及資料視覺效果展現,您需提前開通該服務。詳情請參見開通DataWorks服務

  • image.png雲原生MaxCompute

    實現底層加工計算,您需提前開通該服務。詳情請參見開通MaxCompute

  • image.png雲資料庫RDS MySQL版

    本案例中用於儲存使用者資訊資料。案例已預設提供該MySQL資料來源基本資料,您無需單獨開通該服務。

  • image.pngObject Storage Service

    本案例已預設提供該OSS資料來源基本資料,您無需單獨開通該服務。

涉及模組

本案例使用以下DataWorks模組共同完成。

image.png

步驟

操作內容

階段性目標

資料同步

通過DataWorksData Integration模組,將儲存在MySQL中的使用者資訊資料及儲存在OSS中同步的使用者訪問日誌資料同步至MaxCompute,並提交調度系統,結合DataWorks調度參數實現周期性增量同步處理。

學習如下內容:

  • 如何將不同資料來源資料同步至MaxCompute。

  • 如何快速觸發任務運行。

  • 如何查看任務日誌。

資料加工

使用DataWorks資料開發(DataStudio)模組,將日誌資料通過函數正則等方式拆解為可分析欄位,並與使用者資訊表加工匯總產出基本的使用者畫像資料,並提交調度系統,結合DataWorks調度參數實現周期性資料清洗操作。

學習如下內容:

  • 如何基於DataWorks建立資料流程節點。

  • 如何配置任務的周期調度屬性。

  • 如何運行工作流程。

  • 如何可視化建立資料表。

資料品質監控

通過DataWorks資料品質模組,對周期性ETL(Extract Transformation Load)操作過程中產生的髒資料進行監控,監控不通過則阻斷任務執行,避免影響擴大。

學習如何基於DataWorks為任務產出的表,配置資料品質的監控規則,以保證快速感知ETL過程中產生的髒資料,有效阻斷髒資料向下遊蔓延。

資料視覺效果展示

通過DataWorks資料分析模組,對最終結果表進行使用者Portrait analysis。例如,訪問使用者中地區分布分析、城市註冊人數熱門排行榜分析。

學習如何基於DataWorks將資料進行可視化展示。

實驗預期

  1. 實操該實驗後,可對DataWorks的主要功能有所瞭解。

  2. 實操該實驗後,可在DataWorks獨立完成資料同步 、資料開發和任務營運等資料崗位常見任務。

實驗時間長度

採用線上學習的方式,預計耗時1小時。

實驗費用

本案例運行可能會產生一定的費用。為避免產生過多費用,本案例在建立相關表時,生命週期已預設設定為14天,為避免長期調度產生費用,您可以在實操結束後配置任務的調度有效期間,或者對任務執行凍結商務程序根節點(虛擬節點workshop_start)的操作。

學習答疑

如果您在學習過程中遇到問題,請申請加入DingTalk群進行諮詢。