DataWorks的資料品質監控節點可通過配置資料品質監控規則,監控相關資料來源表的資料品質(例如,是否存在髒資料)。同時,支援您自訂調度策略,周期性執行監控任務進行資料校正。本文為您介紹如何使用資料品質監控節點進行任務監控。
背景資訊
DataWorks的資料品質功能,協助您第一時間感知源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。避免任務產出不符合預期的問題資料,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。詳情請參見資料品質。
使用限制
支援監控的表類型:MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks。
支援監控的表範圍:
僅支援監控當前節點(即資料品質監控節點)所在工作空間繫結資料源中的表。
每個節點僅支援監控一張表資料,但支援配置多個監控規則。不同類型的表,其監控範圍如下:
非分區表:預設為全表監控。
分區表:需通過分區運算式指定監控某個分區。
說明若您需要監控多張表,請建立多個節點使用。
支援執行的操作限制:
在資料開發(DataStudio)建立的資料品質監控規則,僅支援在資料開發運行,並執行修改、發布等管理操作。該規則也可在資料品質模組中查看,但不能觸發調度運行,不允許執行相關管理操作。
若修改資料品質監控節點中配置的監控規則,且發布節點,則該節點原來產生的監控規則會被替換。
支援的地區:
華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)。
前提條件
已建立商務程序。
資料開發(DataStudio)基於商務程序執行不同資料來源的具體開發操作,因此,建立節點前需先建立商務程序,操作詳情請參見建立商務程序。
已建立資料來源並綁定至當前工作空間,且該資料來源中已建立待監控表。
執行資料品質監控任務前,您需先建立監控節點所要監控的資料來源表,詳情請參見建立並管理資料來源、綁定資料來源或叢集、任務開發。
已建立資源群組。
僅支援使用Serverless資源群組(推薦)或獨享調度資源群組運行資料品質監控節點。詳情請參見資源群組管理。
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權。新增成員並授權,詳情請參見為工作空間增加空間成員。
步驟一:建立資料品質監控節點
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入資料開發。
按右鍵目標商務程序,選擇
。在建立節點對話方塊輸入節點名稱,單擊確認,節點建立完成,您可在節點中進行對應任務的開發與配置。
步驟二:配置資料品質監控規則
1、選擇待監控表
2、配置監控資料範圍
3、配置資料品質監控規則
4、配置運行資源
步驟三:配置檢測結果處理策略
在節點編輯頁面的品質監控處置地區,您可針對資料品質監控規則校正的異常結果配置處理策略及訂閱者式。
異常結果類別
異常結果處理策略
異常結果訂閱者式
步驟四:配置任務調度
如您需要周期性執行建立的節點任務,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。配置詳情請參見任務調度屬性配置概述。
您需要設定節點的重跑屬性和依賴的上遊節點,才可以提交節點。
步驟五:調試任務
您可根據需要執行如下調試操作,查看任務是否符合預期。
(可選)選擇運行資源群組、賦值自訂參數取值。
單擊工具列的表徵圖,在參數對話方塊選擇調試運行需使用的調度資源群組。
若您的任務使用了調度參數,可在此處為變數賦值,用於調試。參數賦值邏輯,詳情請參見任務調試流程。
調度參數配置樣本如下圖。
儲存並運行任務。
單擊工具列的表徵圖,儲存任務;單擊表徵圖,運行任務。
任務運行完成後,您可在節點編輯介面下方查看運行結果。若運行失敗,可根據相應報錯進行排查處理。
(可選)煙霧測試 (Smoke Test)。
如您希望在開發環境進行煙霧測試 (Smoke Test),查看調度節點任務的執行是否符合預期,則可在節點提交時,或節點提交後執行煙霧測試 (Smoke Test),操作詳情請參見執行煙霧測試 (Smoke Test)。
步驟六:提交發布任務
節點任務配置完成後,需執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。
執行提交發佈動作後,當前資料品質監控節點及節點內配置的品質規則均會被提交發布。
單擊工具列中的表徵圖,儲存節點。
單擊工具列中的表徵圖,提交節點任務。
提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱。
說明您需設定節點的重跑屬性和依賴的上遊節點,才可提交節點。
程式碼檢閱可對任務配置進行品質把控,防止由於配置有誤,未經審核直接發布上線後出現報錯。如進行程式碼檢閱,則提交的節點必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱。
如您使用的是標準模式的工作空間,任務提交成功後,需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務。