全部產品
Search
文件中心

:查看內建規則模板

更新時間:Jun 19, 2024

資料品質為您提供內建表層級、欄位層級的監控模板。本文為您介紹資料品質的校檢邏輯及內建模板規則。

計算說明

計算波動率:您可以根據波動率計算公式(波動率=(樣本-基準值)/基準值)計算結果。

  • 樣本

    當天採集的具體的樣本的值。例如對於SQL任務錶行數,1天波動檢測,則樣本是當天分區的錶行數。

  • 基準值

    歷史樣本的對比值:

    • 如果規則是SQL任務錶行數,相比7天前的波動率,則基準值是7天前那一天分區產生的錶行數。即今天的採樣結果與7天前那一天分區的結果比較波動率。

    • 如果規則是SQL任務錶行數,7天平均值波動檢測,則基準值是前7天的錶行數的平均值。即(7天內每天錶行數之和)/7。

校檢邏輯

資料品質支援與固定值比較、波動值比較和動態閾值三種校檢方式。

校檢方式

校檢邏輯

與固定值比較

  1. 根據校正的運算式進行計算,返回布爾值。支援以下比較操作符:

    ><>=<=!=

  2. 如果上述計算結果為true,返回正常,否則返回紅色警示。

波動值比較

波動率支援比較上升、下降、絕對值三種類型,以波動率絕對值為例:

  • 如果校正值的絕對值小於或等於橙色閾值,則返回正常

  • 如果校正值的絕對值不滿足第1種情況,且小於或等於紅色閾值,則返回橙色警示

  • 如果校正值不滿足第2種情況,則返回紅色警示

動態閾值

您無需手動設定閾值,系統會自動根據演算法模型即時檢測指標的正確性。如果超出合理的波動範圍,便進行警示。

重要

您需要購買DataWorks企業版及以上版本,才可以使用動態閾值。

內建模板規則說明

內建模板分為表級和欄位級的模板規則,支援您通過內建規則模板來快速為一批表大量建立資料品質規則。詳情請參見:配置規則:按表(單表)配置規則:按模板(批量)

image

表 1. 表級規則

模板名稱

描述

錶行數,固定值。

錶行數。

錶行數,1,7,30天波動率。

同1天、1周和1個月前採集的錶行數進行比較,對比波動率。

說明

表的行數,分別與昨天的樣本、7天前的樣本和30天前的樣本來進行資料比對,計算波動率,再與閾值進行比較,只要其中有一個波動率超過閾值就會警示。

錶行數,7天平均值波動率。

該模板用於監控錶行數的波動情況,基準值是最近7天的錶行數的平均值。即(7天內每天錶行數之和)/7。

錶行數,30天平均值波動率。

該模板用於監控錶行數的波動情況,基準值是最近30天的錶行數的平均值。即(30天內每天錶行數之和)/30。

錶行數,1天波動率。

基準值為昨天的樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,7天波動率。

基準值為7天前樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,30天波動率。

基準值為30天前的樣本(錶行數),比較當天採集的錶行數,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,1,7,30天,本月1號,波動率。

錶行數,與1天前的樣本、7天前的樣本、30天前的樣本和本月1號採集樣本(錶行數),進行比較,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,上周期波動率。

基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比波動率。

錶行數,1天差值。

表的行數,相比1天前的差額。

說明

基準值為昨天分區的錶行數,比較當天採集的錶行數,對比差值。

錶行數,上周期差值。

基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比差值。

表大小,固定值。

表的空間大小(位元組)。

表大小,1天波動率。

該模板用於監控表大小的波動情況,樣本對比值是與昨天的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

例如,填寫橙色閾值為5%,紅色閾值為10%。當波動率大於5%且小於等於10%時,會進行橙色警示。當波動率大於10%時,會進行紅色警示。

表大小,7天波動率。

該模板用於監控表大小的波動情況,樣本對比值是與7天前的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

例如,填寫橙色閾值為5%,紅色閾值為10%。當波動率大於5%且小於等於10%時,會進行橙色警示。當波動率大於10%時,會進行紅色警示。

表大小,上周期差值。

相比上一周期表大小的差值(位元組)。

表大小,相比1天前的差值(位元組)。

表的空間大小,相比1天前的差值(位元組)。

說明

EMR表不支援配置表大小類校正規則。

表 2. 欄位級規則

模板名稱

描述

平均值,1、7、30天波動率。

取該欄位的平均值,與1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

說明

該欄位的平均值,分別與昨天該欄位平均值,7天前該欄位平均值,30天前該欄位平均值進行比較。

匯總值,1、7、30天波動率。

取該欄位的sum值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最小值,1、7、30天波動率。

取該欄位的最小值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最大值,1、7、30天波動率。

取該欄位的最大值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

唯一值個數,固定值。

去重後的count數與一個期望數字進行比較,即固定值校檢。

唯一值個數,1、7、30天波動率。

去重後的count數與1天、1周和1個月前的樣本(欄位為一值個數)比較進行比較,即固定值校檢。

空值個數,固定值。

取該欄位的空值數與固定值進行比較。

說明

是否為空白值,是通過轉換為SQL的is null進行判斷。

空值個數/總行數,固定值。

空值的個數與行總數的比率與一個固定值進行比較。

說明

該固定值是一個小數。

重複值個數/總行數,固定值。

重複值個數與總行數的比率與一個固定值進行比較。

重複值個數,固定值。

總行數減去重後的個數,即欄位重複值的個數。重複值個數與固定值進行比較。

唯一值個數/總行數。

唯一值個數與總行數的比率與一個固定值進行比較。

離散值(狀態值),固定值。

group by之後的分組,每組count數,與固定值進行比較。

離散值(分組個數及狀態值),1、7、30天波動率。

group by之後的分組數和分組後每組count數,與1天前的樣本、7天前的樣本、30天前的樣本(離散值)進行比較,計算波動率。

離散值(分組個數),固定值

group by之後的分組數,與固定值進行比較。

離散值(分組個數),1天波動率

group by之後的分組數,與1天前樣本進行比較,計算波動率。

平均值,1天波動率

取該欄位的平均值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

匯總值,1天波動率

取該欄位的sum值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

最小值,1天波動率

取該欄位的最小值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

最大值,1天波動率

取該欄位的最大值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

匯總值,上周期的波動率。

取該欄位的sum值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最小值,上周期的波動率。

取該欄位的最小值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最大值,上周期的波動率。

取該欄位的最大值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。