全部產品
Search
文件中心

Data Management:監測資料品質

更新時間:Jun 30, 2024

您可使用Data Management的資料品質功能來自訂表格或列維度資料品質規則,並結合任務編排的稽核任務自動檢查資料品質,保證資料的一致性、唯一性、充分性等,從而提升二次資料分析與開發的品質。

前提條件

  • 目標執行個體的管控模式為安全協同。更多資訊,請參見管控模式

  • 您具有如下任意許可權。

    • 您的系統角色為管理員、DBA或結構唯讀,更多資訊,請參見系統角色

    • 您為目標執行個體的執行個體Owner或執行個體DBA,更多資訊,請參見編輯執行個體資訊

    • 您具有表或表所屬庫的查詢、變更、匯出任意一個許可權,更多資訊,請參見查看我的許可權

背景資訊

越來越多的資料需要進行二次資料分析與開發,但這些資料往往來源各異、結構多樣、資料量大且相互依賴,在這樣的情況下,保障資料正確、符合預期,提高資料品質顯得尤為重要。例如,將擷取到的資料投入二次資料分析前,先檢驗資料品質是否符合預期,以確保資料分析任務順利進行。

名詞解釋

  • 資料品質規則:為保障資料符合某些預期,對錶或列設定的規則。例如,表的行數需要為固定值,列的最大值為100等。

  • 稽核任務:用於監測與校正資料是否符合目標資料品質規則。設定品質規則和調度周期後,自動檢查資料品質並產生報告。

操作步驟

  1. 登入Data Management 5.0
  2. 進入表詳情頁面。您可以選擇以下任意一種方式進入表詳情。

    • 通過SQL Console控制台進入。

      1. 在頂部功能表列中,選擇SQL視窗 > SQL視窗

      2. 請先選擇資料庫對話方塊中,搜尋並選擇目標資料庫,單擊確認

      3. 在右上方的擴充功能區域,單擊表列表表詳情

      4. 操作列中,選擇更多 > 查看錶詳情,進入表詳情頁面。

    • 通過搜尋進入。

      1. 單擊首頁頁簽,在頁面中間的搜尋方塊中,輸入目標表名稱。

      2. 選擇標籤,單擊目標表最右側的詳情按鈕,進入表詳情頁面。

      表詳情

  3. 單擊資料品質頁簽。

  4. 單擊創建規則,並在右側彈出的面板中,配置參數。

    配置項

    說明

    樣本值

    規則名稱

    定義規則的名稱。

    列的最大值為100

    規則類型

    選擇規則的類型,支援的選項:

    • 表規則:建立表層級的規則,例如檢驗表的行數是否符合預期。

    • 列規則:建立列層級的規則,例如檢驗列中空值的個數。

    列規則

    規則模版

    選擇系統內建規則模版,更多資訊,請參見資料品質規則模板

    列的最大值

    列名

    選擇規則所應用的目標列名。

    該參數僅在規則類型列規則時顯示。

    columns_test

    比較方式

    選擇比較方式,實際值將與期望值進行比較。

    支援大於大於等於等於小於等於小於不等於

    小於等於

    期望值

    輸入期望的目標值。

    100

  5. 單擊確定

    資料品質規則建立成功後,預設狀態為已啟用

    說明

    您還可以在目標規則模板的操作列,執行以下操作:

    • 單擊禁用,禁用目標規則模板。禁用後,該規則模板將無法建立稽核任務。

      若該規則模板已應用在稽核任務中,會禁用失敗,請刪除目標稽核任務後重試。

    • 選擇更多 > 編輯,編輯資料品質規則。

    • 選擇更多 > 日誌,查看規則的歷史版本。

  6. 在目標規則模板的操作列,選擇更多 > 新建任務流

    建立任務流

  7. 系統自動跳轉至任務編排頁面,在任務編排中配置稽核任務節點,並發布該任務流。

    說明

    更多資訊,請參見概述

    設定任務流的調度周期並發布後,系統會自動根據調度周期和資料品質規則對資料進行檢測。

資料品質規則模板

規則類型

規則模版

表規則

表的行數(固定值):檢驗當前表的行數是否滿足預期。例如配置表的行數小於10萬行。

列規則

  • 列的最大值:檢驗某列中的最大值是否滿足預期,例如配置表的主鍵最大值不能超過2147483647(即2³¹ - 1)。

  • 列的最小值:檢驗某列中的最小值是否滿足預期,例如配置表中某零配件的欄位最小值不能低於3。

  • 符合含萬用字元的該運算式的個數(固定值):檢驗某列中符合格式要求的個數是否符合預期。例如配置某欄位中以a開頭的個數必須小於10。

  • 符合該Regex的個數(固定值):檢驗某列中符合格式要求的個數是否符合預期,例如配置某列(儲存電子郵箱)中符合Regex要求的個數必須大於100。

  • 列中空值的個數(固定值):檢驗某列中空值的個數是否滿足預期,例如配置某列中空值的個數小於等於0。

  • 列中唯一值的個數(固定值):檢驗某列中唯一值的個數是否滿足預期,例如配置某列中唯一值的個數大於等於100,以保障所有資料中一定會出現100個不同的值。

  • 列中重複值的個數(固定值):檢驗某列中重複的個數是否滿足預期,例如配置某列中重複值的個數一定小於100,以保障所有資料中出現重複值的次數不會超過100。