資料品質協助您第一時間感知源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。避免任務產出不符合預期的問題資料,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費。
費用說明
資料品質規則運行產生的費用由兩部分組成:
DataWorks相關收費
根據資料品質規則執行個體數進行按量收費,詳情請參見:資料品質計費說明。
非DataWorks收費
資料品質規則校正會產生校正SQL並下推到引擎執行,資料品質規則運行將會產生引擎費用,各引擎計費細則請參考各引擎計費文檔。例如,假設您使用MaxCompute引擎隨用隨付模式時,資料品質規則校正將會產生MaxCompute引擎費用,此費用由MaxCompute引擎側收取,不在DataWorks賬單中體現。
功能介紹
資料品質支援對常見巨量資料儲存(MaxCompute、E-MapReduce Hive、Hologres等)進行品質校正。從完整性、準確性、有效性、一致性、唯一性和及時性等多個維度,配置品質監控規則。並可以將品質監控規則與調度節點進行關聯,當任務運行完成後便會觸發品質規則校正,協助您第一時間感知問題資料,按需設定規則的強弱來控制任務是否失敗退出,從而避免髒資料影響擴大,有效降低資料恢複處理的時間成本和費用成本。
資料品質各模組功能介紹如下:
名稱 | 描述 |
資料品質概覽頁面為您展示資料品質警示與阻塞情況。包括:
| |
我的訂閱頁面為您展示當前登入帳號下通過簡訊,郵件接收警示的資料品質校正規則。此外,資料品質還支援通過DingTalk群機器人、企業微信機器人和飛書群機器人等方式發送警示資訊。 | |
資料品質支援按表配置或按模板配置品質監控規則,詳情請參見:配置規則:按表(單表)、配置規則:按模板(批量)。 | |
在任務查詢頁面您可以通過表或節點搜尋表歷史校正記錄及校正詳情。 | |
去噪管理功能支援對當前工作空間某一時間內,資料品質規則校正異常的資料不觸發警示,且不阻塞任務運行。 | |
報告範本管理員頁面支援您建立報告模板,添加規則配置和規則啟動並執行各項指標,根據設定的統計周期、發送時間和訂閱資訊,定時產生並發送報告。 | |
資料品質支援自建規則模板庫,對通用的自訂監控規則進行統一管理,形成自建的規則模板庫,協助您提升規則配置的效率。 |
注意事項
EMR、Hologres、analyticDB for PostgreSQL、CDH在進行資料品質規則配置前,需要先進行中繼資料採集,詳情請參見中繼資料採集。
EMR、Hologres、analyticDB for PostgreSQL、CDH配置表資料品質規則後,產出表資料的調度節點需要使用網路已經連通的獨享調度資源群組執行才可以正常觸發資料品質規則校正。
一個表可以配置多個資料品質規則。
使用情境
在離線資料校正情境下,資料品質通過表配置的分區運算式來匹配節點每天產出的表分區,資料品質規則關聯產出該表資料的調度節點,當任務運行完成便會觸發品質規則校正,您可以設定規則的強弱來控制節點是否失敗退出,從而避免髒資料影響擴大,並支援通過警示配置第一時間接收警示資訊並處理。
配置規則
建立規則:資料品質支援您按表建立資料品質規則,同時,也支援您通過內建規則模板來快速為一批表大量建立資料品質規則。詳情請參見:配置規則:按表(單表)、配置規則:按模板(批量)。
訂閱規則:規則建立完成後,您可以通過規則訂閱的方式接收資料品質規則校正警示資訊,支援郵件通知、郵件和簡訊通知、DingTalk群機器人、DingTalk群機器人@ALL、飛書群機器人、企業微信機器人和自訂Webhook等方式進行警示。
說明僅DataWorks企業版版本支援使用自訂Webhook方式。
觸發規則校正
在營運中心中,當表關聯的調度節點運行(執行節點代碼邏輯)完成後,將會觸發資料品質校正(將會產生一條校正 SQL 在底層執行)。DataWorks平台將會根據資料品質規則強弱和資料品質規則校正結果決定任務是否由於品質規則校正失敗而退出,並阻塞下遊節點執行,防止髒資料影響範圍進一步擴大。