本實驗採用DataWorks+MaxCompute產品組合,為您介紹DataWorks的基本使用。
快速體驗
本案例中,資料同步和資料加工的部分任務可以通過ETL工作流程範本一鍵匯入。在匯入模板後,您可以前往目標空間,並自行完成後續的資料品質監控和資料視覺效果操作。
僅空間管理員角色可匯入ETL模板至目標工作空間,為帳號授權空間管理員角色詳情請參見空間級模組許可權管控。
匯入ETL工作流程範本,詳情請參見匯入ETL工作流程範本。
ETL工作流程範本快捷入口,請點擊網站使用者行為分析。
實驗介紹
實驗背景
以網站使用者Portrait analysis為背景,通過使用DataWorks完成以下情境。
資料同步
資料加工
配置資料品質監控
資料視覺效果展現
目標人群
開發工程師、資料分析師、產品營運等存在數倉資料擷取與資料分析洞察人員。
涉及產品
本案例涉及以下產品:
一站式巨量資料開發治理DataWorks
本案例通過DataWorks實現資料同步、加工、品質監控,以及資料視覺效果展現,您需提前開通該服務。詳情請參見開通DataWorks服務。
雲原生MaxCompute
實現底層加工計算,您需提前開通該服務。詳情請參見開通MaxCompute。
雲資料庫RDS MySQL版
本案例中用於儲存使用者資訊資料。案例已預設提供該MySQL資料來源基本資料,您無需單獨開通該服務。
Object Storage Service
本案例已預設提供該OSS資料來源基本資料,您無需單獨開通該服務。
涉及模組
本案例使用以下DataWorks模組共同完成。
步驟 | 操作內容 | 階段性目標 |
通過DataWorksData Integration模組,將儲存在MySQL中的使用者資訊資料及儲存在OSS中同步的使用者訪問日誌資料同步至MaxCompute,並提交調度系統,結合DataWorks調度參數實現周期性增量同步處理。 | 學習如下內容:
| |
使用DataWorks資料開發(DataStudio)模組,將日誌資料通過函數正則等方式拆解為可分析欄位,並與使用者資訊表加工匯總產出基本的使用者畫像資料,並提交調度系統,結合DataWorks調度參數實現周期性資料清洗操作。 | 學習如下內容:
| |
通過DataWorks資料品質模組,對周期性ETL(Extract Transformation Load)操作過程中產生的髒資料進行監控,監控不通過則阻斷任務執行,避免影響擴大。 | 學習如何基於DataWorks為任務產出的表,配置資料品質的監控規則,以保證快速感知ETL過程中產生的髒資料,有效阻斷髒資料向下遊蔓延。 | |
通過DataWorks資料分析模組,對最終結果表進行使用者Portrait analysis。例如,訪問使用者中地區分布分析、城市註冊人數熱門排行榜分析。 | 學習如何基於DataWorks將資料進行可視化展示。 |
實驗預期
實操該實驗後,可對DataWorks的主要功能有所瞭解。
實操該實驗後,可在DataWorks獨立完成資料同步 、資料開發和任務營運等資料崗位常見任務。
實驗時間長度
採用線上學習的方式,預計耗時1小時。
實驗費用
本案例運行可能會產生一定的費用。為避免產生過多費用,本案例在建立相關表時,生命週期已預設設定為14天,為避免長期調度產生費用,您可以在實操結束後配置任務的調度有效期間,或者對任務執行凍結商務程序根節點(虛擬節點workshop_start)的操作。
學習答疑
如果您在學習過程中遇到問題,請申請加入DingTalk群進行諮詢。