全部產品
Search
文件中心

DataWorks:查看內建規則模板

更新時間:Nov 08, 2024

資料品質為您提供多種內建監控模板。本文為您介紹資料品質的校檢邏輯及內建模板規則。

計算說明

計算波動率:您可以根據波動率計算公式(波動率=(樣本-基準值)/基準值)計算結果。

  • 樣本

    當天採集的具體的樣本的值。例如對於SQL任務錶行數,1天波動檢測,則樣本是當天分區的錶行數。

  • 基準值

    歷史樣本的對比值:

    • 如果規則是SQL任務錶行數,相比7天前的波動率,則基準值是7天前那一天分區產生的錶行數。即今天的採樣結果與7天前那一天分區的結果比較波動率。

    • 如果規則是SQL任務錶行數的7天平均值波動檢測,則基準值是前7天的錶行數的平均值。即(7天內每天錶行數之和)/7。

校檢邏輯

資料品質支援與固定值比較、波動值比較和動態閾值三種校檢方式。

校檢方式

校檢邏輯

與固定值比較

  1. 根據校正的運算式進行計算,返回布爾值。支援以下比較操作符:

    ><>=<=!=

  2. 如果上述計算結果為true,返回正常,否則返回紅色警示。

波動值比較

波動率支援比較上升、下降、絕對值三種類型,以波動率絕對值為例:

  • 如果校正值的絕對值小於或等於橙色閾值,則返回正常

  • 如果校正值的絕對值不滿足第1種情況,且小於或等於紅色閾值,則返回橙色警示

  • 如果校正值不滿足第2種情況,則返回紅色警示

動態閾值

您無需手動設定閾值,系統會自動根據演算法模型即時檢測指標的正確性。如果超出合理的波動範圍,便進行警示。

內建模板規則說明

您可以通過內建規則模板快速為單表或一批表大量建立資料品質規則。詳情請參見:配置規則:按表(單表)配置規則:按模板(批量)

模板分類

模板名稱

描述

錶行數

錶行數,固定值

錶行數。

錶行數大於0

判斷錶行數是否大於0。

錶行數,1天差值

表的行數,相比1天前的差額。

說明

基準值為昨天分區的錶行數,比較當天採集的錶行數,對比差值。

錶行數,上周期差值

基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比差值。

錶行數,1,7,30天,本月1號,波動率

錶行數,與1天前的樣本、7天前的樣本、30天前的樣本和本月1號採集樣本(錶行數),進行比較,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,1,7,30天波動率

同1天、1周和1個月前採集的錶行數進行比較,對比波動率。

說明

表的行數,分別與昨天的樣本、7天前的樣本和30天前的樣本來進行資料比對,計算波動率,再與閾值進行比較,只要其中有一個波動率超過閾值就會警示。

錶行數,1天波動率

基準值為昨天的樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,30天波動率

基準值為30天前的樣本(錶行數),比較當天採集的錶行數,對比波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,7天波動率

基準值為7天前樣本(錶行數),比較當天採集的錶行數,對比波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

錶行數,動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

錶行數,30天平均值波動率

該模板用於監控錶行數的波動情況,基準值是最近30天的錶行數的平均值。即(30天內每天錶行數之和)/30。

錶行數,7天平均值波動率

該模板用於監控錶行數的波動情況,基準值是最近7天的錶行數的平均值。即(7天內每天錶行數之和)/7。

錶行數,上周期波動率

基準值為上一周期產生的分區的錶行數,比較當天採集的錶行數,對比波動率。

錶行數,自訂範圍

自訂設定錶行數的對比方式和比較閾值範圍。

條件匹配率

條件匹配佔比,自訂範圍

自訂設定過濾條件的匹配率的對比方式和比較閾值範圍。

表大小

表大小,固定值。

表的空間大小(位元組)。

表大小,相比1天前的差值(位元組)

表的空間大小,相較於1天前的差值(位元組)。

表大小,上周期差值。

相比上一周期表大小的差值(位元組)。

表大小,1天波動率

該模板用於監控表大小的波動情況,樣本對比值是與昨天的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

例如,填寫橙色閾值為5%,紅色閾值為10%。當波動率大於5%且小於等於10%時,會進行橙色警示。當波動率大於10%時,會進行紅色警示。

表大小,30天波動率

該模板用於監控表大小的波動情況,樣本對比值是與30天前的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

表大小,7天波動率

該模板用於監控表大小的波動情況,樣本對比值是與7天前的額度樣本進行比較,計算波動率,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

表大小,動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

空值行數

空值個數,固定值

取該欄位的空值數與固定值進行比較。

說明

是否為空白值,是通過轉換為SQL的IS NULL進行判斷。

空值記錄數為0

判斷空值記錄數是否為0。

空值行數/總行數

空值個數/總行數,固定值

空值的個數與行總數的比率與一個固定值進行比較。

說明

該固定值是一個小數。

重複值行數

重複值個數,固定值

總行數減去重複後的個數,即欄位重複值的個數。重複值個數與固定值進行比較。

欄位重複值為0

判斷欄位重複值是否為0。

多欄位唯一值

多欄位重複值為0

判斷多欄位重複值是否為0。

重複值個數/總行數

重複值個數/總行數,固定值

重複值個數與總行數的比率與一個固定值進行比較。

唯一值數

唯一值個數,固定值

去重後的count數與一個期望數字進行比較,即固定值校正。

唯一值個數,1、7、30天波動率

去重後的count數與1天、1周和1個月前的樣本(欄位為一值個數)比較進行比較,即固定值校檢。

唯一值個數,動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

唯一值數/總行數

唯一值個數/總行數,固定值

唯一值個數與總行數的比率與一個固定值進行比較。

最小值

最小值,1、7、30天波動率

取該欄位的最小值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最小值,動態閾值。

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

最小值,1天波動率

取該欄位的最小值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

最小值,上周期的波動率

取該欄位的最小值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

欄位最小值,自訂範圍

自訂設定欄位最小值的對比方式和比較閾值範圍。

最大值

最大值,1、7、30天波動率

取該欄位的最大值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

最大值,動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

最大值,1天波動率

取該欄位的最大值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

最大值,上周期的波動率

取該欄位的最大值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

欄位最大值,自訂範圍

自訂設定欄位最大值的對比方式和比較閾值範圍。

平均值

平均值,1、7、30天波動率

取該欄位的平均值,與1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

說明

該欄位的平均值,分別與昨天該欄位平均值,7天前該欄位平均值,30天前該欄位平均值進行比較。

平均值動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

平均值,1天波動率

取該欄位的平均值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

欄位均值,自訂範圍

自訂設定欄位平均值的對比方式和比較閾值範圍。

匯總值

匯總值,1、7、30天波動率

取該欄位的sum值,同1天、7天和1個月前的樣本(欄位平均值)進行比較,計算波動率。再與閾值進行比較,只要有一個不符合規則即可觸發警示。

匯總值,動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

匯總值,1天波動率

取該欄位的sum值,與前1天進行比較,計算出波動率後,再與閾值進行比較。

匯總值,上周期的波動率

取該欄位的sum值,與上一周期進行比較,計算出波動率後,再與閾值進行比較,只要有一個不符合規則即可觸發警示。

欄位匯總值,自訂範圍

自訂設定欄位匯總值的對比方式和比較閾值範圍。

離散值

離散值(狀態值),固定值

group by之後的分組,每組count數,與固定值進行比較。

離散值(分組個數),固定值

group by之後的分組數,與固定值進行比較。

離散值(分組個數),動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

離散值(狀態值),動態閾值

開啟智能動態閾值後,無需手動設定波動閾值或期望值,系統會根據智能演算法,自動判斷合理閾值。若探索資料異常,會即時觸發警示或阻塞。

離散值(分組個數),1天波動率

group by之後的分組數,與1天前樣本進行比較,計算波動率。

離散值(分組個數及狀態值),1、7、30天波動率

group by之後的分組數和分組後每組count數,與1天前的樣本、7天前的樣本、30天前的樣本(離散值)進行比較,計算波動率。

說明

EMR表不支援配置表大小類校正規則。

附錄一:上一周期口徑說明

上一周期任務可以通過排除掉相同業務日期的校正,按業務日期倒序排列,若業務日期相同,則再按已耗用時間進行倒序排列,取第一個執行的任務作為基準,詳情請參見下表:

調度類型

業務日期

基準對比方式

常見問題

正常日調度情境

歷史業務日期:

  • 2024-06-01

  • 2024-06-02

  • 2024-06-03

  • 2024-06-04

  • 2024-06-05

當業務日期為2024-06-06的調度任務開始校正時,取2024-06-05的校正作為基準進行比較。

補歷史資料情境

背景

2024-06-01至2024-06-05日正常執行,但在2024-06-05日調度執行個體執行後,對該業務日期為2024-07-01日的執行個體進行了補資料,當業務日期2024-06-06調度任務開始校正時,基準對比日期為哪一天?

結論

業務日期2024-06-06調度任務會取業務日期2024-07-01的校正作為基準進行對比。由於2024-07-01業務日期較大,因此,正常的日調度任務直至2024-07-02的調度執行個體執行完成前,都會以2024-07-01為基準。

正常小時調度情境

歷史業務日期:

  • 2024-06-01

  • 2024-06-02

  • 2024-06-03

任務按小時調度,每日執行3次。

當業務日期2024-06-04的小時調度任務開始校正時,取業務日期2024-06-03的最後一次校正作為基準進行對比。

小時調度情境

背景

2024-06-01至2024-06-03每日三個小時調度與業務日期2024-06-04的第1個調度正常執行,那麼在業務日期2024-06-04的第2調度執行個體開始校正時,基準對比的日期為哪一天?

結論

業務日期2024-06-04的第2個調度任務執行個體開始校正時,會排除掉當天(2024-06-04)的第1次校正,取業務日期2024-06-03的最後一次校正作為基準進行對比。

附錄二:小時任務N天前樣本值口徑說明

小時任務取N天前樣本時,會先按照第N天已耗用時間(非定時時間)倒序排列,預設擷取已耗用時間倒序排列後的第一個執行個體的結果資料作為樣本值與當前結果進行比較,詳情請參見下表:

調度類型

業務日期

波動率對比方式

常見問題

正常小時調度情境

歷史業務日期:

  • 2024-06-01

  • 2024-06-02

  • ……

  • 2024-06-08

任務按小時調度,每日執行3次。

若對比的是7日波動率,當運行日期為2024-06-08的小時調度任務開始校正時,取運行日期為2024-06-01日最後一次的樣本值。

小時調度情境

背景

2024-06-01至2024-06-08每日三個小時調度,那麼在運行日期2024-06-08的第2個調度執行個體開始校正時,7日波動率對比的是哪一天的哪一個調度結果作為樣本值?

結論

運行日期2024-06-08日第2個調度任務執行個體開始校正時,取任務日期2024-06-01日最後一次校正作為樣本值進行7日波動率的對比。