全部產品
Search
文件中心

DataWorks:資料品質概述

更新時間:Aug 17, 2024

資料品質協助您第一時間感知源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。避免任務產出不符合預期的問題資料,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。

費用說明

資料品質規則運行產生的費用由兩部分組成:

  • DataWorks相關收費

    根據資料品質規則執行個體數進行按量收費,詳情請參見:資料品質計費說明

  • 非DataWorks收費

    資料品質規則校正會產生校正SQL並下推到引擎執行,資料品質規則運行將會產生引擎費用,各引擎計費細則請參考各引擎計費文檔。例如,假設您使用MaxCompute引擎隨用隨付模式時,資料品質規則校正將會產生MaxCompute引擎費用,此費用由MaxCompute引擎側收取,不在DataWorks賬單中體現。

功能介紹

資料品質支援對常見巨量資料儲存(MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)進行品質校正。從完整性、準確性、有效性、一致性、唯一性和及時性等多個維度,配置品質監控規則。並可以將品質監控規則與調度節點進行關聯,當任務運行完成後便會觸發品質規則校正,協助您第一時間感知問題資料,按需設定規則的強弱來控制任務是否失敗退出,從而避免髒資料影響擴大,有效降低資料恢複處理的時間成本和費用成本。

資料品質各模組功能介紹如下:

名稱

描述

資料品質大盤

資料品質大盤為您展示當前工作空間下,需要重點關注的資料品質總覽指標、執行個體運行後觸發的品質規則校正狀態的趨勢及分布情況、TOP品質問題表及品質問題責任人、品質規則覆蓋保障情況等,協助品質負責人快速瞭解工作空間資料品質整體情況,及時處理品質問題提升資料品質。

品質資產

規則列表

展示已配置的所有品質規則的列表。

規則模板庫

資料品質支援自建規則模板庫,對通用的自訂監控規則進行統一管理,形成自建的規則模板庫,協助您提升規則配置的效率。

規則配置

配置規則:按表(單表)

資料品質支援按表配置或按模板配置品質監控規則。

配置規則:按模板(批量)

品質營運

品質監控

品質監控列表頁可以查看本工作空間下建立的所有品質監控任務。

運行記錄

展示品質監控任務運行時的規則校正結果。品質監控任務運行後,您可以在運行記錄頁面查看詳情。

品質分析

品質報告

資料品質支援使用者建立報告模板,自由添加規則配置和規則啟動並執行各項指標。根據設定的統計周期、發送時間和訂閱資訊,定時產生並發送報告。

注意事項

  • 如下引擎類型支援的地區存在差異:

    引擎類型

    支援地區

    E-MapReduce

    華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、東京(日本)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、美國(矽谷)

    Hologres

    華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華南1(深圳)、中國香港、東京(日本)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、美國(矽谷)、美國(維吉尼亞)

    AnalyticDB PostgreSQL

    華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、東京(日本)

    AnalyticDB MySQL

    華南1(深圳)、新加坡、美國(矽谷)

    CDH

    華東2(上海)、華北2(北京)、華北3(張家口)、中國香港、德國(法蘭克福)

  • E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH在進行資料品質規則配置前,需要先進行中繼資料採集,詳情請參見中繼資料採集

  • E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL、CDH配置表資料品質規則後,產出表資料的調度節點需要使用網路已經連通的資源群組執行才可以正常觸發資料品質規則校正。

  • 一個表可以配置多個資料品質規則。

使用情境

在離線資料校正情境下,資料品質通過表配置的分區運算式來匹配節點每天產出的表分區,資料品質規則關聯產出該表資料的調度節點,當任務運行完成便會觸發品質規則校正(空跑任務不會觸發品質規則校正),您可以設定規則的強弱來控制節點是否失敗退出,從而避免髒資料影響擴大,並支援通過警示配置第一時間接收警示資訊並處理。離線情境

配置規則

  • 建立規則:資料品質支援您按表建立資料品質規則,同時,也支援您通過內建規則模板來快速為一批表大量建立資料品質規則。詳情請參見:按表配置監控規則配置規則:按模板(批量)

  • 訂閱規則:規則建立完成後,您可以通過規則訂閱的方式接收資料品質規則校正警示資訊,支援郵件通知郵件和簡訊通知DingTalk群機器人DingTalk群機器人@ALL飛書群機器人企業微信機器人自訂Webhook等方式進行警示。

    說明

    僅DataWorks企業版版本支援使用自訂Webhook方式。

觸發規則校正

營運中心中,當表關聯的調度節點運行(執行節點代碼邏輯)完成後,將會觸發資料品質監控,從而觸發品質監控中的規則校正(將會產生一條校正SQL在底層執行)。DataWorks平台將根據資料品質規則的強弱和資料品質規則校正結果決定任務是否由於品質規則校正失敗而退出,並阻塞下遊節點執行,防止髒資料影響範圍進一步擴大。

查看校正結果

您可以通過營運中心節點作業記錄和資料品質任務查詢頁面查看資料品質校正結果。

  • 通過營運中心節點作業記錄查看

    1. 查看執行個體狀態。當執行個體狀態為品質監控校正失敗時,可能是代碼運行成功但節點產出的表資料不符合預期,資料品質強規則校正未通過導致任務失敗退出並阻塞下遊執行個體運行。執行個體狀態

    2. 開啟執行個體作業記錄中的DQC日誌,查看資料品質校正結果。詳情請參見查看周期執行個體DQC日誌

  • 通過運行記錄介面查看。

    在運行記錄介面,通過表或節點搜尋資料品質監控的校正詳情。詳情請參見:查看監控任務