您可使用Data Management的資料品質功能來自訂表格或列維度資料品質規則,並結合任務編排的稽核任務自動檢查資料品質,保證資料的一致性、唯一性、充分性等,從而提升二次資料分析與開發的品質。
前提條件
背景資訊
越來越多的資料需要進行二次資料分析與開發,但這些資料往往來源各異、結構多樣、資料量大且相互依賴,在這樣的情況下,保障資料正確、符合預期,提高資料品質顯得尤為重要。例如,將擷取到的資料投入二次資料分析前,先檢驗資料品質是否符合預期,以確保資料分析任務順利進行。
名詞解釋
資料品質規則:為保障資料符合某些預期,對錶或列設定的規則。例如,表的行數需要為固定值,列的最大值為100等。
稽核任務:用於監測與校正資料是否符合目標資料品質規則。設定品質規則和調度周期後,自動檢查資料品質並產生報告。
操作步驟
- 登入Data Management 5.0。
進入表詳情頁面。您可以選擇以下任意一種方式進入表詳情。
通過SQL Console控制台進入。
在頂部功能表列中,選擇
。在請先選擇資料庫對話方塊中,搜尋並選擇目標資料庫,單擊確認。
在右上方的擴充功能區域,單擊表列表。
從操作列中,選擇
,進入表詳情頁面。
通過搜尋進入。
單擊首頁頁簽,在頁面中間的搜尋方塊中,輸入目標表名稱。
選擇表標籤,單擊目標表最右側的詳情按鈕,進入表詳情頁面。
單擊資料品質頁簽。
單擊創建規則,並在右側彈出的面板中,配置參數。
配置項
說明
樣本值
規則名稱
定義規則的名稱。
列的最大值為100
規則類型
選擇規則的類型,支援的選項:
表規則:建立表層級的規則,例如檢驗表的行數是否符合預期。
列規則:建立列層級的規則,例如檢驗列中空值的個數。
列規則
規則模版
選擇系統內建規則模版,更多資訊,請參見資料品質規則模板。
列的最大值
列名
選擇規則所應用的目標列名。
該參數僅在規則類型為列規則時顯示。
columns_test
比較方式
選擇比較方式,實際值將與期望值進行比較。
支援大於、大於等於、等於、小於等於、小於、不等於。
小於等於
期望值
輸入期望的目標值。
100
單擊確定。
資料品質規則建立成功後,預設狀態為已啟用。
說明您還可以在目標規則模板的操作列,執行以下操作:
單擊禁用,禁用目標規則模板。禁用後,該規則模板將無法建立稽核任務。
若該規則模板已應用在稽核任務中,會禁用失敗,請刪除目標稽核任務後重試。
選擇
,編輯資料品質規則。選擇
,查看規則的歷史版本。
在目標規則模板的操作列,選擇 。
系統自動跳轉至任務編排頁面,在任務編排中配置稽核任務節點,並發布該任務流。
說明更多資訊,請參見概述。
設定任務流的調度周期並發布後,系統會自動根據調度周期和資料品質規則對資料進行檢測。
資料品質規則模板
規則類型 | 規則模版 |
表規則 | 表的行數(固定值):檢驗當前表的行數是否滿足預期。例如配置表的行數小於10萬行。 |
列規則 |
|