全部產品
Search
文件中心

DataWorks:資料品質監控節點

更新時間:Nov 20, 2024

DataWorks的資料品質監控節點可通過配置資料品質監控規則,監控相關資料來源表的資料品質(例如,是否存在髒資料)。同時,支援您自訂調度策略,周期性執行監控任務進行資料校正。本文為您介紹如何使用資料品質監控節點進行任務監控。

背景資訊

DataWorks的資料品質功能,協助您第一時間感知源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。避免任務產出不符合預期的問題資料,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。詳情請參見資料品質

使用限制

  • 支援監控的表類型:MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks。

  • 支援監控的表範圍:

    • 僅支援監控當前節點(即資料品質監控節點)所在工作空間繫結資料源中的表。

    • 每個節點僅支援監控一張表資料,但支援配置多個監控規則。不同類型的表,其監控範圍如下:

      • 非分區表:預設為全表監控。

      • 分區表:需通過分區運算式指定監控某個分區。

      說明

      若您需要監控多張表,請建立多個節點使用。

  • 支援執行的操作限制:

    • 在資料開發(DataStudio)建立的資料品質監控規則,僅支援在資料開發運行,並執行修改、發布等管理操作。該規則也可在資料品質模組中查看,但不能觸發調度運行,不允許執行相關管理操作。

    • 若修改資料品質監控節點中配置的監控規則,且發布節點,則該節點原來產生的監控規則會被替換。

  • 支援的地區:

    華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、西南1(成都)、中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)。

前提條件

  • 已建立商務程序。

    資料開發(DataStudio)基於商務程序執行不同資料來源的具體開發操作,因此,建立節點前需先建立商務程序,操作詳情請參見建立商務程序

  • 已建立資料來源並綁定至當前工作空間,且該資料來源中已建立待監控表。

    執行資料品質監控任務前,您需先建立監控節點所要監控的資料來源表,詳情請參見建立並管理資料來源綁定資料來源或叢集任務開發

  • 已建立資源群組。

    僅支援使用Serverless資源群組(推薦)或獨享調度資源群組運行資料品質監控節點。詳情請參見資源群組管理

  • (可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發空間管理員(許可權較大,謹慎添加)角色許可權。新增成員並授權,詳情請參見為工作空間增加空間成員

步驟一:建立資料品質監控節點

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 按右鍵目標商務程序,選擇建立節點 > 資料品質 > 資料品質監控

  3. 建立節點對話方塊輸入節點名稱,單擊確認,節點建立完成,您可在節點中進行對應任務的開發與配置。

步驟二:配置資料品質監控規則

1選擇待監控表

單擊選擇表,在選擇表對話方塊根據條件搜尋並選擇需要監控的目標表。image

2配置監控資料範圍

  • 非分區表:預設為全表監控,可忽略該步驟。

  • 分區表:需選擇要監控的分區資料,支援使用調度參數。單擊預覽即可驗證分區運算式的計算結果是否正確。image

3、配置資料品質監控規則

您可建立規則,也可匯入已有規則使用。配置的規則預設為啟用狀態。

  • 建立規則

    單擊建立規則,即可基於模板或自訂SQL建立資料品質監控規則,不同方式的介紹及配置詳情如下。

    方式一:基於系統模板建立

    平台內建多種監控規則,您可基於規則模板快速建立資料品質監控規則,操作步驟如下圖。

    說明

    您也可在左側系統模板列表,找到所需規則模板,單擊+使用進行建立。

    image

    系統規則模板參數說明

    參數

    描述

    規則名稱

    您可以自訂規則名稱。

    規則模板

    定義需要對錶進行哪種類型規則校正。

    資料品質為您提供大量內建表層級、欄位層級的監控模板可直接選擇。詳情請參見查看內建規則模板

    說明

    平均值、匯總值、最小值和最大值僅對數值型欄位生效。

    規則範圍

    該規則應用的範圍,表層級規則預設為當前表,欄位層級規則選擇具體欄位。

    比較方式

    定義規則具體怎麼校正表資料是否符合預期。

    • 手動設定:自訂資料產出結果與規則的比較方式。

      不同規則模板,可選擇的比較方式不同,具體請以實際介面為準。

      • 支援數值型結果對比,通常與固定值(即期望值)進行比較,比較方式包括大於大於等於等於不等於小於小於等於。支援您自訂正常資料範圍(正常閾值)與異常資料範圍(紅色閾值)。

      • 支援波動型結果對比,通常是進行範圍比較,比較方式包括絕對值上升下降。支援您自訂正常資料範圍(正常閾值),您還可以根據異常偏離程度定義資料產出存在異常(橙色閾值)與資料產出不符合預期(紅色閾值)。

    • 智能動態閾值:您無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值;若探索資料異常,會即時觸發警示或阻塞。動態閾值也可支援強、弱規則。

      說明

      自訂SQL自訂範圍、動態閾值類型的品質規則支援智能動態閾值比較方式。

    監控閾值

    • 比較方式手動設定時,您可以自行設定正常閾值紅色閾值

      • 正常閾值:當資料品質規則校正結果滿足此處設定的值時,說明資料校正符合預期。

      • 紅色閾值:當資料品質規則校正結果滿足此處設定的值時,說明資料校正不符合預期。

    • 當規則為波動型校正時,您需要指定橙色閾值

      • 橙色閾值:當資料品質規則校正結果滿足此處設定的值時,說明資料存在異常但不影響業務運行。

    保留問題資料

    當規則為啟用狀態時,在本條資料品質監控規則校正不通過的情況下,系統自動建立問題資料表格儲存體品質規則校正過程中發現的問題資料。

    重要
    • 目前僅支援MaxCompute表配置保留問題資料功能。

    • 目前僅部分資料品質監控規則支援配置保留問題資料功能。

    • 受啟停狀態影響,若規則為停用狀態,則不執行保留問題資料。

    啟用狀態

    規則的啟用停用狀態,用於控制該規則是否在生產環境中運行。

    重要

    狀態設定為停用時,規則將無法觸發測試回合,並且不會被關聯的調度任務觸發運行。

    重要程度

    設定規則在業務中的強弱程度。

    • 強規則:比較重要的規則,如果出現紅色異常,預設會阻塞品質監控關聯的調度任務的執行。

    • 弱規則:普通規則,如果出現紅色異常,預設不會阻塞品質監控關聯的調度任務的執行。

    描述

    您可以對該規則進行補充說明。

    方式二:基於自訂模板建立

    使用該方式之前,您需先前往資料品質 > 品質資產 > 規則模板庫建立自訂規則模板,才可基於該模板建立資料品質監控規則,詳情請參見建立並管理自訂規則模板

    基於自訂模板建立資料品質規則的操作步驟如下圖。

    說明

    您也可在左側自訂模板列表,找到所需規則模板,單擊+使用進行建立。

    image

    自訂規則模板參數說明

    此處僅展示自訂規則模板專屬參數,其他參數解釋,請參見系統規則模板參數說明。

    配置項

    說明

    FLAG參數

    用於定義需要在資料品質校正SQL執行前提前執行的SET命令。

    SQL

    定義完整的SQL校正邏輯,要求返回結果為一行一列,且結果為數值型。

    自訂SQL中,請使用中括弧的形式匹配表的分區運算式。樣本如下:

    select count(*) from ${tableName} where ds=$[yyyymmdd];
    說明
    • ${tableName}變數取值將根據實際監控的表動態替換。

    • 配置分區運算式,詳情請參見附錄二:內建分區運算式

    • 如果您為表建立了品質監控,則通過此方式配置規則後,品質監控中設定的資料範圍將不會生效。規則將以此處SQL語句中的WHERE為準,確認需要校正的表分區。

    方式三:基於自訂SQL建立

    該方式支援您自訂表格的資料品質校正邏輯。

    image

    自訂SQL參數說明

    此處僅展示自訂SQL專屬參數,其他參數解釋,請參見系統規則模板參數說明。

    配置項

    說明

    FLAG參數

    用於定義需要在資料品質校正SQL執行前提前執行的SET命令。

    SQL

    定義完整的SQL校正邏輯,要求返回結果為一行一列,且結果為數值型。

    自訂SQL中,請使用中括弧的形式匹配表的分區運算式。樣本如下:

    select count(*) from <table_name> where ds=$[yyyymmdd];
    說明
    • 您需要在實際配置中將<table_name>替換為當前實際操作的表名,實際監控的表由此處SQL決定。

    • 配置分區運算式,詳情請參見附錄二:內建分區運算式

    • 如果您為表建立了品質監控,則通過此方式配置規則後,品質監控中設定的資料範圍將不會生效。規則將以此處SQL語句中的WHERE為準,確認需要校正的表分區。

  • 匯入已有規則

    若待監控表在資料品質功能模組已建立相關監控規則,您可通過匯入方式快速複製相應規則;若未建立,請先前往資料品質建立,詳情請參見配置規則:按表(單表)

    說明

    該方式支援大量匯入多個規則,支援對錶欄位層級資料配置監控規則。

    單擊匯入規則,您可通過規則ID/名稱、規則模板、關聯範圍(即全表或表的某些欄位)搜尋並選擇需匯入的規則。

    image

4、配置運行資源

用於選擇執行品質規則檢測所需的運行資源(即在哪個資料來源中運行品質規則監控任務),預設為待監控表所在的資料來源。

說明

如選擇其他資料來源,需確認資料來源是否擁有該表的存取權限。

步驟三:配置檢測結果處理策略

在節點編輯頁面的品質監控處置地區,您可針對資料品質監控規則校正的異常結果配置處理策略及訂閱者式。

異常結果類別

校正異常結果類別如下。

異常結果類別

說明

強規則 · 校正失敗

  • 強弱:表示規則的重要程度。

  • 紅色異常:資料校正指標結果命中紅色品質異常閾值範圍。通常是該品質異常閾值範圍的定義為“資料校正不符合預期,會嚴重影響後續業務運行”。

  • 橙色異常:資料校正指標結果命中橙色品質異常閾值範圍。通常是該品質異常閾值範圍的定義為“資料校正存在異常,但不影響後續業務運行”。

  • 校正失敗:校正任務運行失敗。例如:監控的分區未產出,或使用者用於監控的SQL運行失敗。

強規則 · 紅色異常

強規則 · 橙色異常

弱規則 · 校正失敗

弱規則 · 紅色異常

弱規則 · 橙色異常

異常結果處理策略

對於規則校正產生的異常結果,您可按需配置處理策略:

  • 不忽略:可配置檢測到某異常類別(例如,強規則出現紅色異常)時,停止運行當前節點,並將節點置為失敗狀態。

    說明
    • 當前節點運行失敗後,下遊節點將不執行,以此阻塞生產鏈路,避免問題資料汙染擴散。

    • 支援添加多種異常結果類別進行檢測。

    • 通常,當異常產生的影響較大,會阻塞下遊任務執行時,可使用該策略。

  • 忽略:忽略異常,繼續執行下遊節點。

異常結果訂閱者式

您可配置異常結果的接收方式(例如,郵件通知),當產生異常結果時,平台會以相應方式推送異常資訊,以便您及時發現並處理異常。

說明

平台支援多種接收方式,具體請以實際介面為準。其中:

  • 郵件、郵件和簡訊、電話僅支援選擇當前帳號下的使用者作為接收人。請確認相關人員的郵箱或手機號配置正確,詳情請參見查看和設定警示連絡人

  • 其他方式需輸入接收資訊的Webhook地址。擷取方式,請參見擷取Webhook

步驟四:配置任務調度

如您需要周期性執行建立的節點任務,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。配置詳情請參見任務調度屬性配置概述

說明

您需要設定節點的重跑屬性依賴的上遊節點,才可以提交節點。

步驟五:調試任務

您可根據需要執行如下調試操作,查看任務是否符合預期。

  1. (可選)選擇運行資源群組、賦值自訂參數取值。

    • 單擊工具列的進階運行表徵圖,在參數對話方塊選擇調試運行需使用的調度資源群組。

    • 若您的任務使用了調度參數,可在此處為變數賦值,用於調試。參數賦值邏輯,詳情請參見任務調試流程

      調度參數配置樣本如下圖。

      image

  2. 儲存並運行任務。

    單擊工具列的儲存表徵圖,儲存任務;單擊運行表徵圖,運行任務。

    任務運行完成後,您可在節點編輯介面下方查看運行結果。若運行失敗,可根據相應報錯進行排查處理。

  3. (可選)煙霧測試 (Smoke Test)。

    如您希望在開發環境進行煙霧測試 (Smoke Test),查看調度節點任務的執行是否符合預期,則可在節點提交時,或節點提交後執行煙霧測試 (Smoke Test),操作詳情請參見執行煙霧測試 (Smoke Test)

步驟六:提交發布任務

節點任務配置完成後,需執行提交發佈動作,提交發布後節點即會根據調度配置內容進行周期性運行。

說明

執行提交發佈動作後,當前資料品質監控節點及節點內配置的品質規則均會被提交發布。

  1. 單擊工具列中的儲存表徵圖,儲存節點。

  2. 單擊工具列中的提交表徵圖,提交節點任務。

    提交時需在提交對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱。

    說明
    • 您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

    • 程式碼檢閱可對任務配置進行品質把控,防止由於配置有誤,未經審核直接發布上線後出現報錯。如進行程式碼檢閱,則提交的節點必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱

如您使用的是標準模式的工作空間,任務提交成功後,需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務

後續步驟

  • 任務營運:任務提交發布後,會基於節點的配置周期性運行,您可單擊節點編輯介面右上方的營運,進入營運中心查看周期任務的調度運行情況(例如,節點運行狀態、觸發規則詳情等)。詳情請參見查看並管理周期任務

    樣本查看某執行個體運行時觸發的品質規則詳情。

    image

  • 資料品質:資料品質監控規則發布後,您也可進入資料品質模組查看規則詳情,但不允許執行修改、刪除等管理操作。詳情請參見資料品質概述