資料品質為您提供內建表層級、欄位層級的監控模板。本文為您介紹資料品質的校檢邏輯及內建模板規則。
計算說明
計算波動率:您可以根據波動率計算公式(波動率=(樣本-基準值)/基準值
)計算結果。
樣本
當天採集的具體的樣本的值。例如對於SQL任務錶行數,1天波動檢測,則樣本是當天分區的錶行數。
基準值
歷史樣本的對比值:
如果規則是SQL任務錶行數,相比7天前的波動率,則基準值是7天前那一天分區產生的錶行數。即今天的採樣結果與7天前那一天分區的結果比較波動率。
如果規則是SQL任務錶行數,7天平均值波動檢測,則基準值是前7天的錶行數的平均值。即(7天內每天錶行數之和)/7。
校檢邏輯
資料品質支援與固定值比較、波動值比較和動態閾值三種校檢方式。
校檢方式 | 校檢邏輯 |
與固定值比較 |
|
波動值比較 | 波動率支援比較上升、下降、絕對值三種類型,以波動率絕對值為例:
|
動態閾值 | 您無需手動設定閾值,系統會自動根據演算法模型即時檢測指標的正確性。如果超出合理的波動範圍,便進行警示。 重要 您需要購買DataWorks企業版及以上版本,才可以使用動態閾值。 |
內建模板規則說明
內建模板分為表級和欄位級的模板規則,支援您通過內建規則模板來快速為一批表大量建立資料品質規則。詳情請參見:配置規則:按表(單表)、配置規則:按模板(批量)。
表 1. 表級規則
模板名稱 | 描述 |
錶行數,固定值。 | 錶行數。 |
錶行數,1,7,30天波動率。 | 同1天、1周和1個月前採集的錶行數進行比較,對比波動率。 說明 表的行數,分別與昨天的樣本、7天前的樣本和30天前的樣本來進行資料比對,計算波動率,再與閾值進行比較,只要其中有一個波動率超過閾值就會警示。 |
錶行數,7天平均值波動率。 | 該模板用於監控錶行數的波動情況,基準值是最近7天的錶行數的平均值。即(7天內每天錶行數之和)/7。 |
錶行數,30天平均值波動率。 | 該模板用於監控錶行數的波動情況,基準值是最近30天的錶行數的平均值。即(30天內每天錶行數之和)/30。 |
錶行數,1天波動率。 | 基準值為昨天的樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
錶行數,7天波動率。 | 基準值為7天前樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
錶行數,30天波動率。 | 基準值為30天前的樣本(錶行數),比較當天採集的錶行數,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
錶行數,1,7,30天,本月1號,波動率。 | 錶行數,與1天前的樣本、7天前的樣本、30天前的樣本和本月1號採集樣本(錶行數),進行比較,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
錶行數,上周期波動率。 | 基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比波動率。 |
錶行數,1天差值。 | 表的行數,相比1天前的差額。 說明 基準值為昨天分區的錶行數,比較當天採集的錶行數,對比差值。 |
錶行數,上周期差值。 | 基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比差值。 |
表大小,固定值。 | 表的空間大小(位元組)。 |
表大小,1天波動率。 | 該模板用於監控表大小的波動情況,樣本對比值是與昨天的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 例如,填寫橙色閾值為5%,紅色閾值為10%。當波動率大於5%且小於等於10%時,會進行橙色警示。當波動率大於10%時,會進行紅色警示。 |
表大小,7天波動率。 | 該模板用於監控表大小的波動情況,樣本對比值是與7天前的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 例如,填寫橙色閾值為5%,紅色閾值為10%。當波動率大於5%且小於等於10%時,會進行橙色警示。當波動率大於10%時,會進行紅色警示。 |
表大小,上周期差值。 | 相比上一周期表大小的差值(位元組)。 |
表大小,相比1天前的差值(位元組)。 | 表的空間大小,相比1天前的差值(位元組)。 |
EMR表不支援配置表大小類校正規則。
表 2. 欄位級規則
模板名稱 | 描述 |
平均值,1、7、30天波動率。 | 取該欄位的平均值,與1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 說明 該欄位的平均值,分別與昨天該欄位平均值,7天前該欄位平均值,30天前該欄位平均值進行比較。 |
匯總值,1、7、30天波動率。 | 取該欄位的sum值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
最小值,1、7、30天波動率。 | 取該欄位的最小值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
最大值,1、7、30天波動率。 | 取該欄位的最大值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
唯一值個數,固定值。 | 去重後的count數與一個期望數字進行比較,即固定值校檢。 |
唯一值個數,1、7、30天波動率。 | 去重後的count數與1天、1周和1個月前的樣本(欄位為一值個數)比較進行比較,即固定值校檢。 |
空值個數,固定值。 | 取該欄位的空值數與固定值進行比較。 說明 是否為空白值,是通過轉換為SQL的is null進行判斷。 |
空值個數/總行數,固定值。 | 空值的個數與行總數的比率與一個固定值進行比較。 說明 該固定值是一個小數。 |
重複值個數/總行數,固定值。 | 重複值個數與總行數的比率與一個固定值進行比較。 |
重複值個數,固定值。 | 總行數減去重後的個數,即欄位重複值的個數。重複值個數與固定值進行比較。 |
唯一值個數/總行數。 | 唯一值個數與總行數的比率與一個固定值進行比較。 |
離散值(狀態值),固定值。 | group by之後的分組,每組count數,與固定值進行比較。 |
離散值(分組個數及狀態值),1、7、30天波動率。 | group by之後的分組數和分組後每組count數,與1天前的樣本、7天前的樣本、30天前的樣本(離散值)進行比較,計算波動率。 |
離散值(分組個數),固定值 | group by之後的分組數,與固定值進行比較。 |
離散值(分組個數),1天波動率 | group by之後的分組數,與1天前樣本進行比較,計算波動率。 |
平均值,1天波動率 | 取該欄位的平均值,與前1天進行比較,計算出波動率後,再與閾值進行比較。 |
匯總值,1天波動率 | 取該欄位的sum值,與前1天進行比較,計算出波動率後,再與閾值進行比較。 |
最小值,1天波動率 | 取該欄位的最小值,與前1天進行比較,計算出波動率後,再與閾值進行比較。 |
最大值,1天波動率 | 取該欄位的最大值,與前1天進行比較,計算出波動率後,再與閾值進行比較。 |
匯總值,上周期的波動率。 | 取該欄位的sum值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
最小值,上周期的波動率。 | 取該欄位的最小值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |
最大值,上周期的波動率。 | 取該欄位的最大值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。 |