自訂監控規則協助您根據實際業務需求,自訂監控規則,監控任務運行狀態或資源使用方式,以便及時發現並處理異常。本文為您介紹如何在規則管理頁面自訂警示規則,以及添加DingTalk群機器人擷取Webhook地址。
使用限制
自訂監控規則僅對自動調度的周期執行個體生效,不對周期任務的測試和補資料任務運行結果進行監控。
自訂監控規則支援郵件、簡訊、電話、DingTalk群機器人和WebHook警示方式,使用限制如下:
電話:僅支援中國內地手機號的電話警示。
WebHook:
可用版本:僅DataWorks企業版支援使用WebHook功能。
可用地區:僅華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(香港)、歐洲中部 1(法蘭克福)、亞太地區東南1(新加坡)地區支援使用WebHook功能警示。
可用警示方式:僅支援推送警示資訊至企業微信或飛書。
說明DataWorks僅支援使用DingTalk群、企業微信和飛書的WebHook地址,如您需要使用自主開發的WebHook發送Message Service,請參考智能監控自訂WebHook進行適配,並在完成後與我們聯絡以便進一步處理。請工單聯絡我們。
僅DataWorks專業版及以上版本可配置出錯執行個體數量、出錯執行個體佔比、任務日誌含關鍵字等觸發條件,詳情請參見DataWorks各版本詳解;開通DataWorks,詳情請參見購買指引。
僅支援監控規則的責任人、租用戶系統管理員以及主帳號對監控規則進行修改。
注意事項
當通過自訂監控規則監控周期執行個體時,不同警示觸發條件對應的監控時間範圍如下。
監控範圍 | 觸發條件 | 說明 |
業務日期(即昨天T) |
| DataWorks會監控業務日期為昨天,定時時間為今天的周期執行個體,滿足觸發條件則產生警示。 |
業務日期(即昨天T)、前天(T-1) |
| DataWorks會監控業務日期為昨天、前天,定時時間為今天、昨天的周期執行個體,滿足觸發條件則產生警示。 |
業務日期(即昨天T)、前天(T-1)、大前天(T-2) |
| DataWorks會監控業務日期為昨天、前天、大前天,定時時間為今天、昨天、前天的周期執行個體,滿足觸發條件則產生警示。 |
監控範圍外的周期執行個體即使滿足觸發條件,也不會產生警示。不同觸發條件對應的監控規則,詳情請參見建立自訂規則。
進入規則管理
進入營運中心頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的 ,在下拉框中選擇對應工作空間後單擊進入營運中心。
在左側導覽列,單擊 。
說明還支援您進入周期任務頁面批量選擇節點並建立監控規則。詳情請參見查看並管理周期任務。
建立自訂規則
在規則管理頁面,您可根據需要建立自訂監控規則。
配置基本資料
參數 | 描述 |
規則名稱 | 輸入建立自訂規則的名稱。 |
物件類型 | 指定監控對象的類型,定義監控的粒度。包括任務節點、基準、工作空間、商務程序、獨享調度資源群組和獨享Data Integration資源群組。 說明 物件類型為基準時,僅對基準上的任務運行狀態進行監控,不會監控基準任務的上遊任務,如果您需要同時監控基準任務的上遊任務,請參見:智能基準概述。 |
規則對象 | 指定監控對象。輸入監控對象的名稱或ID後,在列表中選擇需要添加的對象,單擊添加。 支援添加的監控物件類型及數量上限如下:
|
任務白名單 | 指定上述監控對象中,哪些任務不受當前規則監控。 當物件類型為基準、工作空間、商務程序時,支援您輸入節點名稱/ID,單擊添加按鈕將任務添加至白名單列表中。 說明 白名單中的任務將不受監控,且最多支援添加50個任務。 |
資源群組名稱 | 指定需要監控的獨享資源群組名稱。 當物件類型為獨享調度資源群組和獨享Data Integration資源群組時,則需要在下拉式清單中選擇需要監控的資源群組名稱。 |
配置觸發方式
自訂警示邏輯中,任務凍結狀態表示任務已完成。
物件類型 | 觸發條件 | 描述 |
任務節點、基準、工作空間、商務程序 | 完成 | 表示從任務啟動並執行起始時間點開始監控,在任務運行成功時系統發送警示。
說明 對於小時任務,只有全部周期均運行成功後,該任務才會被判定為完成。 |
未完成 | 表示從任務啟動並執行起始時間點開始監控,到指定的目標時間點任務仍未結束運行,則系統發送警示。 說明 此警示與智能基準警示策略不同,智能基準能夠及時捕捉導致基準上的任務無法按時完成的異常情況並提前預警,詳情請參見:智能基準概述。 情境樣本:
說明 對於小時或分鐘任務,會校正當天所有周期在指定時間點是否未運行完成。 | |
出錯 | 表示從任務啟動並執行起始時間點開始監控,如果任務運行出錯,則系統發送警示。 說明 執行個體任務運行出錯即在 的基本資料列,目標執行個體顯示狀態。
| |
出錯執行個體數 | 表示處於出錯狀態的執行個體數量,包括DQC校正不通過以及代碼邏輯執行失敗情況。 當物件類型為工作空間時,選擇觸發條件為出錯執行個體數量後,您需要配置閾值,即出錯執行個體個數達到閾值時,就會觸發警示。 說明
| |
出錯執行個體佔比 | 當物件類型為工作空間時,選擇觸發條件為出錯執行個體佔比後,您需要配置閾值,即出錯執行個體占當天總執行個體數的比例達到閾值時,就會觸發警示。 說明
| |
任務日誌含關鍵字 | 當物件類型為工作空間時,選擇觸發條件為任務日誌含關鍵字後,您需要配置關鍵字,即當天任務作業記錄含關鍵字時,將觸發警示。 說明
| |
周期未完成 | 表示在指定的周期內,任務仍未結束運行,則系統發送警示。通常用於監控以小時為周期單位的執行個體任務。 當商務程序設定了周期未完成監控後,系統會根據您設定的周期N,對商務程序中的任務(例如,天任務、小時任務、分鐘任務等),進行第N個周期任務的監控。如果執行個體數少於N時,則會忽略該任務的警示。 例如,設定的周期為3,商務程序中有如下兩個任務,則警示監控情況如下:
| |
逾時 | 表示從任務啟動並執行起始時間點開始監控,到指定的運行時間長度後,該任務仍未結束運行,則系統發送警示。通常用於監控任務的運行時間長度。 說明 如果監控的任務執行失敗,到指定的運行時間長度後,該任務仍處於未成功狀態,將觸發逾時警示。 | |
自動重跑後仍出錯 | 表示從任務啟動並執行起始時間點開始監控,如果任務運行出錯且自動重跑後仍出錯,則系統發送警示, 說明 如果您需要在任務每次運行出錯時就觸發警示,則可以將觸發條件配置為:出錯。 | |
任務轉執行個體完成 | 僅當物件類型為工作空間時,可以選擇該觸發條件。 | |
執行個體數量波動 | 僅當物件類型為工作空間時,可以選擇該觸發條件。DataWorks每天在24:00前產生次日需要啟動並執行周期執行個體,當工作空間的執行個體數量與歷史均值相比發生一定幅度的波動時,您將收到該警示。 | |
獨享調度資源群組、獨享Data Integration資源群組 | 資源群組利用率 | 當利用率大於某個數值並持續指定時間長度時,觸發該警示。 樣本:利用率大於50%並持續15分鐘時,觸發警示。 |
資源群組上等待資源的執行個體數 | 當等資源執行個體數大於某個數值並持續指定時間長度時,觸發該警示。 樣本:等資源執行個體數大於10並持續15分鐘,觸發警示。 |
配置警示行為
警示方式 | 警示接收人 | 描述 |
郵件、簡訊、電話 | 支援警示給任務責任人、值班表和其他人員。 |
|
DingTalk群機器人WebHook、 | 群內人員 |
|
配置疲勞度控制
參數 | 描述 |
最大警示次數 | 警示的最大次數,超過設定的次數後,不再產生警示。 |
最小警示間隔 | 兩次警示之間的最小時間間隔。 |
勿打擾時間 | 設定了勿打擾時間後,在該時間段內系統將不會發送警示。 例如,當設定了任務狀態為逾時、出錯、未完成時觸發警示,且該任務設定的勿打擾時間為 |
配置完成後單擊確定,即可建置規則。您可以在規則管理頁面單擊相應規則後的詳情、開啟/關閉或刪除進行相關操作。
詳情:單擊詳情,即可查看規則的基本資料。
開啟或關閉:控制規則的狀態,開啟後方可監控任務的執行情況。您可以在警示資訊面板查看警示詳情。
刪除:單擊刪除,即可直接刪除規則。
修改監控規則
建立好的規則只能通過監控規則的責任人、租用戶系統管理員以及主帳號進行修改
情境實踐:發送警示訊息至DingTalk群
開啟需要警示的目標DingTalk群,單擊右上方的群設定表徵圖。
單擊智能群助手。
在智能群助手頁面,單擊添加機器人。
在群機器人頁面,單擊表徵圖。
在選擇要添加的機器人頁面,單擊自訂。
在自訂對話方塊中,單擊添加。
在添加機器人對話方塊中,配置各項參數。
參數
描述
機器人名字
自訂機器人的名稱。
添加到群組
添加機器人的群組,不可以修改。
自訂關鍵詞
設定後,只有包含關鍵詞的訊息內容才會被正常發送。此處必須添加DataWorks為關鍵詞,注意區分大小寫。
說明最多可以設定10個關鍵詞,訊息中至少包含其中1個關鍵詞才可以發送成功。
選中我已閱讀並同意《自訂機器人服務及免責條款》,單擊完成。
完成安全設定後,複製機器人的Webhook,單擊完成。
重要請妥善保管Webhook地址,一旦泄露會有安全風險。
進入規則管理頁面,單擊建立自訂規則,選擇警示方式為DingTalk群機器人,複製webhook地址至DingTalk群機器人的webhook地址輸入框中。