監控規則是資料品質(DQC)的核心。資料品質支援EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute、CDH Hive監控,本文為您介紹如何配置MaxCompute監控。
新增MaxCompute資料來源
進入資料來源頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的管理中心,在下拉框中選擇對應工作空間後單擊進入管理中心。
進入工作空間管理中心頁面後,單擊左側導覽列的資料來源,進入資料來源頁面。
單擊右上方的新增資料來源添加MaxCompute資料來源,詳情請參見配置MaxCompute資料來源。
選擇資料來源
單擊當前頁面左上方的表徵圖,選擇 。
在左側導覽列,單擊 。
選擇引擎/資料來源為MaxCompute,顯示當前資料來源下所有的表。
您也可以輸入目標表名(支援表名首字母模糊搜尋),尋找對應的表。
單擊相應表後的配置監控規則。
配置分區運算式
資料品質通過分區運算式來確定需要配置的規則:
如果您的檢查對象為非分區表,可以配置分區運算式為NOTAPARTITIONTABLE。
如果您的檢查對象為分區表,可以配置為業務日期的運算式(例如$[yyyymmdd-1])。
資料品質規則中,分區運算式不支援使用大括弧相關格式。例如,${yyyymmdd-1}。
在資料表的監控規則頁面,單擊分區運算式後的+,添加分區運算式。
您可以選擇建立分區運算式,也可以選擇推薦的分區運算式:
建立分區的運算式
在添加分區對話方塊中,您可以根據自身需求編輯符合文法的分區運算式。非分區表可以直接選擇推薦的分區運算式中的NOTAPARTITIONTABLE。
一級分區的運算式格式:分區名=分區值,分區值可以是固定值,也可以是內建參數運算式。分區表必須配置到最後一級分區。
多級分區運算式格式:1級分區名=分區值/2級分區名=分區值/N級分區名=分區值,分區值可以是固定值,也可以是內建參數運算式。參數必須使用中括弧表示,例如$[yyyymmdd-N]。
分區運算式周期由配置的業務日期決定,例如配置已耗用時間為前5天,則周期為每5天調度一次。支援的分區運算式如下表所示。
分區運算式
描述
dt=$[yyyymmdd-N]
代表前N天
dt=$[hh24miss-1/24]
代表一個小時前
dt=$[hh24miss-30/24/60]
代表半個小時前
dt=$[add_months(yyyymmdd,-1)]
代表擷取上個月今天的日期。精確到天。
$[yyyymmdd]
調度日期
$[yyyymmdd-1]
代表擷取業務日期。
$[yyyymmddhh24miss]
格式為
yyyymmddhh24miss
,當前執行個體啟動並執行業務日期:yyyy表示4位元年份
mm表示2位元月份
dd表示2位元天
hh24表示24小時制的時
mi表示2位元分鐘
ss表示2位元秒
NOTAPARTITIONTABLE
非分區表可以選擇該分區運算式
推薦的分區運算式
下文將以分區名dt為例,為您介紹推薦的分區運算式。
在添加分區對話方塊中,單擊輸入運算式的視窗,會顯示資料品質為您推薦的分區運算式:
如果有符合預期的運算式,單擊該行,會自動同步至輸出視窗。
如果沒有滿足需求的分區運算式,您可以根據需求自己輸入。
輸入分區運算式後,單擊計算。資料品質會按照目前時間(調度時間)計算出分區運算式的計算結果,以便驗證分區運算式的正確性。
單擊確認。
如果您有不需要的分區運算式,可以單擊相應分區運算式後的刪除。如果該分區運算式已經配置有規則,刪除時會刪除該運算式下的所有規則。
配置關聯調度
如果您需要在生產鏈路上監控離線資料品質,需要將資料品質規則與產出表資料的調度節點進行關聯:
產出表資料的調度節點必鬚髮布後才可以關聯調度。
關聯前,請確保您在關聯的兩個工作空間中,同時擁有管理員、開發或營運中至少一個角色。
資料品質的關聯調度可以關聯單個或多個節點任務,關聯調度完成後,離線資料品質監控任務可以自動運行。
資料品質的關聯可以靈活配置,您關聯的任務並非一定與您的表有關係。
在相應表的監控規則頁面,單擊關聯調度,配置規則與任務的綁定關係。
在關聯調度對話方塊中,輸入您需要關聯的任務節點名稱。
單擊添加。
建立規則
建立規則是資料品質模組的核心內容,您可以根據表的實際需要建立規則。
目前建立規則的方式包括模板規則和自訂規則,您可以根據自身需求選擇相應方式。兩種規則又分為添加監控規則和快捷添加兩部分,詳情請參見配置規則:按表(單表)。
建立完成後單擊批量儲存,即可將建立的所有規則儲存到已建好的分區運算式。
添加方式 | 參數 | 描述 |
添加監控規則 | 規則名稱 | 輸入規則名稱。 |
強弱 | 配置規則的強弱:
| |
動態閾值 | 您無需手動設定閾值,系統會自動根據演算法模型即時檢測指標的正確性。如果超出合理的波動範圍,便進行警示。 重要 您需要購買DataWorks企業版及以上版本,才可以使用動態閾值功能。 | |
規則來源 | 包括內建模板和規則模板庫。 | |
規則欄位 | 包括表級規則和欄位級規則。欄位級規則可以針對錶中的具體欄位配置監控規則。 說明 此處選擇為表級規則,頁面中的其它設定項對應為表級規則配置項。 | |
規則模板 |
| |
比較方式 | 包括絕對值、上升和下降三種類型。 | |
波動值比較 | 設定波動值的橙色閾值和紅色閾值。您可以通過拖動進度條來設定,也可以直接輸入閾值。 | |
描述 | 對配置的規則進行簡單描述。 | |
快捷添加 | 規則名稱 | 輸入規則名稱。 |
規則欄位 | 包括表級規則和欄位級規則。欄位級規則可以針對錶中具體欄位進行配置監控規則。 | |
快捷規則 |
|
試跑規則
成功配置規則後,您可以針對某個分區運算式下的所有規則進行試跑,並查看試跑的校正結果。
通過試跑,您可以測試規則配置的正確性、測試訂閱發送渠道。試跑是手動運行監控規則的一種方式,您可以根據自身需求選擇是否進行試跑。
在相應表的監控規則頁面,單擊試跑。
在試跑對話方塊中,選擇調度日期。
參數
描述
試跑分區
實際分區會隨著業務日期變化而改變。如果為NOTAPARTITIONTABLE,則會自動添加實際分區。
調度時間
選擇需要試跑的調度日期,預設為目前時間。
單擊試跑。
單擊試跑成功,點擊查看試跑結果,進入任務查詢頁面,查看校正結果。詳情請參見查看監控任務。
進行訂閱管理
訂閱管理預設通知建立者,如果想通知其它使用者,您可以手動添加。
在相應表的監控規則頁面,單擊訂閱管理。
在訂閱管理對話方塊中,選擇相應的訂閱者式。
訂閱者式包括郵件通知、郵件和簡訊通知、DingTalk群機器人、DingTalk群機器人@ALL、飛書群機器人、企業微信機器人和自訂Webhook。
說明添加DingTalk群、飛書群和企業微信機器人擷取Webhook地址後,複製Webhook地址至訂閱管理中即可。
僅DataWorks企業版版本支援使用自訂Webhook方式,DataWorks推送自訂Webhook的警示資訊的訊息格式請參見:附錄:Webhook訊息格式。
單擊儲存。
查看分區動作記錄
在相應表的監控規則頁面,單擊分區動作記錄。您可以在動作記錄對話方塊中查看操作人、操作時間和操作內容。
操作內容顯示當前分區運算式設定的所有規則。
查看上一次校檢結果
在相應表的監控規則頁面,單擊上一次校檢結果,進入任務查詢頁面。您可以查看當前分區運算式下的運行結果情況和歷史結果。
複製規則
在相應表的監控規則頁面,單擊複製規則。
在複製規則對話方塊中,選擇目標運算式。
根據自身需求選中同步訂閱人或替換自訂SQL規則中的表名。
單擊執行複製。