全部產品
Search
文件中心

DataWorks:規則管理

更新時間:Oct 25, 2024

自訂監控規則協助您根據實際業務需求,自訂監控規則,監控任務運行狀態或資源使用方式,以便及時發現並處理異常。本文為您介紹如何在規則管理頁面自訂警示規則,以及添加DingTalk群機器人擷取Webhook地址。

使用限制

  • 自訂監控規則僅對自動調度的周期執行個體生效,不對周期任務的測試和補資料任務運行結果進行監控。

  • 自訂監控規則支援郵件簡訊電話、DingTalk群機器人WebHook警示方式,使用限制如下:

    • 電話:僅支援中國內地手機號的電話警示。

    • WebHook

      • 可用版本:僅DataWorks企業版支援使用WebHook功能。

      • 可用地區:僅華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(香港)、歐洲中部 1(法蘭克福)、亞太地區東南1(新加坡)地區支援使用WebHook功能警示。

      • 可用警示方式:僅支援推送警示資訊至企業微信或飛書。

    說明

    DataWorks僅支援使用DingTalk群、企業微信和飛書的WebHook地址,如您需要使用自主開發的WebHook發送Message Service,請參考智能監控自訂WebHook進行適配,並在完成後與我們聯絡以便進一步處理。請工單聯絡我們。

  • 僅DataWorks專業版及以上版本可配置出錯執行個體數量、出錯執行個體佔比、任務日誌含關鍵字等觸發條件,詳情請參見DataWorks各版本詳解;開通DataWorks,詳情請參見購買指引

注意事項

當通過自訂監控規則監控周期執行個體時,不同警示觸發條件對應的監控時間範圍如下。

監控範圍

觸發條件

說明

業務日期(即昨天T)

  • 任務轉執行個體完成

  • 執行個體數量波動

  • 執行個體運行完成

  • 出錯執行個體數

  • 出錯執行個體佔比

  • 任務日誌含關鍵字

DataWorks會監控業務日期為昨天,定時時間為今天的周期執行個體,滿足觸發條件則產生警示。

業務日期(即昨天T)、前天(T-1)

  • 執行個體運行未完成

  • 執行個體周期運行未完成

  • 執行個體運行逾時

DataWorks會監控業務日期為昨天、前天,定時時間為今天、昨天的周期執行個體,滿足觸發條件則產生警示。

業務日期(即昨天T)、前天(T-1)、大前天(T-2)

  • 執行個體運行出錯

  • 執行個體自動重跑後仍出錯

DataWorks會監控業務日期為昨天、前天、大前天,定時時間為今天、昨天、前天的周期執行個體,滿足觸發條件則產生警示。

說明

監控範圍外的周期執行個體即使滿足觸發條件,也不會產生警示。不同觸發條件對應的監控規則,詳情請參見建立自訂規則

進入規則管理

  1. 進入營運中心。

    1. 登入DataWorks控制台

    2. 在左側導覽列,單擊工作空間列表

    3. 選擇工作空間所在地區後,單擊相應工作空間操作列的快速進入 > 營運中心,進入營運中心頁面。

  2. 在左側導覽列,單擊監控警示 > 規則管理

    說明

    還支援您進入周期任務頁面批量選擇節點並建立監控規則。詳情請參見查看並管理周期任務

建立自訂規則

在規則管理頁面,您可根據需要建立自訂監控規則。

配置基本資料

參數

描述

規則名稱

輸入建立自訂規則的名稱。

物件類型

指定監控對象的類型,定義監控的粒度。包括任務節點基準工作空間商務程序獨享調度資源群組獨享Data Integration資源群組

說明

物件類型為基準時,僅對基準上的任務運行狀態進行監控,不會監控基準任務的上遊任務,如果您需要同時監控基準任務的上遊任務,請參見:智能基準概述

規則對象

指定監控對象。輸入監控對象的名稱或ID後,在列表中選擇需要添加的對象,單擊添加

支援添加的監控物件類型及數量上限如下:

  • 任務節點:50個

  • 基準:5個

  • 商務程序:5個

  • 工作空間:1個

任務白名單

指定上述監控對象中,哪些任務不受當前規則監控。

物件類型基準工作空間商務程序時,支援您輸入節點名稱/ID,單擊添加按鈕將任務添加至白名單列表中。

說明

白名單中的任務將不受監控,且最多支援添加50個任務。

資源群組名稱

指定需要監控的獨享資源群組名稱。

物件類型獨享調度資源群組獨享Data Integration資源群組時,則需要在下拉式清單中選擇需要監控的資源群組名稱

配置觸發方式

說明

自訂警示邏輯中,任務凍結狀態表示任務已完成。

物件類型

觸發條件

描述

任務節點基準工作空間商務程序

完成

表示從任務啟動並執行起始時間點開始監控,在任務運行成功時系統發送警示。

  • 當物件類型為基準商務程序時,僅當基準、商務程序上的所有任務都運行成功時,才會觸發警示。

  • 當物件類型為任務節點,且添加了多個節點時,僅當所有節點都執行完成時,才會觸發警示。

  • 當物件類型為工作空間時,觸發條件不支援設定為完成

說明

對於小時任務,只有全部周期均運行成功後,該任務才會被判定為完成。

未完成

表示從任務啟動並執行起始時間點開始監控,到指定的目標時間點任務仍未結束運行,則系統發送警示。

說明

此警示與智能基準警示策略不同,智能基準能夠及時捕捉導致基準上的任務無法按時完成的異常情況並提前預警,詳情請參見:智能基準概述

情境樣本:

  • 情境一:任務的定時調度時間為1點,設定的未完成時間為2點,則1點時該任務開始運行,在2點時任務仍未結束運行,則發送警示。

  • 情境二:設定任務每天0:00~23:59每小時調度一次,當該任務未完成時間設定為12點時,則該規則每天都會觸發警示。

  • 情境三:設定某基準完成時間為10點,則只要基準上有一個任務沒有在10點完成,便會發送警示。

說明

對於小時或分鐘任務,會校正當天所有周期在指定時間點是否未運行完成。

出錯

表示從任務啟動並執行起始時間點開始監控,如果任務運行出錯,則系統發送警示。

說明

執行個體任務運行出錯即在營運中心 > 周期任務營運 > 周期執行個體的基本資料列,目標執行個體顯示3狀態。

  • 當物件類型為基準工作空間商務程序時,只要基準、工作空間或商務程序內的某個任務運行出錯,便會觸發警示。

  • 任務每次運行出錯都會觸發警示,如果某個任務出錯警示次數為2,當該任務重跑2次均出錯時,將會觸發4次警示。

  • 如果您需要在任務自動重跑後仍出錯時再觸發警示,則可以將觸發條件配置為:自動重跑後仍出錯

出錯執行個體數

表示處於出錯狀態的執行個體數量,包括DQC校正不通過以及代碼邏輯執行失敗情況。

當物件類型為工作空間時,選擇觸發條件出錯執行個體數量後,您需要配置閾值,即出錯執行個體個數達到閾值時,就會觸發警示。

說明
  • DataWorks專業版及以上版本才可使用該功能。

  • “當天”特指業務日期為昨天,定時時間為今天的周期執行個體。

出錯執行個體佔比

當物件類型為工作空間時,選擇觸發條件出錯執行個體佔比後,您需要配置閾值,即出錯執行個體占當天總執行個體數的比例達到閾值時,就會觸發警示。

說明
  • DataWorks專業版及以上版本才可使用該功能。

  • “當天”特指業務日期為昨天,定時時間為今天的周期執行個體。

任務日誌含關鍵字

當物件類型為工作空間時,選擇觸發條件任務日誌含關鍵字後,您需要配置關鍵字,即當天任務作業記錄含關鍵字時,將觸發警示。

說明
  • DataWorks專業版及以上版本才可使用該功能。

  • “當天”特指業務日期為昨天,定時時間為今天的周期執行個體。

  • 8月24前建立的獨享資源群組,若要使用任務日誌含關鍵字警示功能,請提交工單聯絡我們進行升級。否則無法收到相關警示資訊。

周期未完成

表示在指定的周期內,任務仍未結束運行,則系統發送警示。通常用於監控以小時為周期單位的執行個體任務。

當商務程序設定了周期未完成監控後,系統會根據您設定的周期N,對商務程序中的任務(例如,天任務、小時任務、分鐘任務等),進行第N個周期任務的監控。如果執行個體數少於N時,則會忽略該任務的警示。

例如,設定的周期為3,商務程序中有如下兩個任務,則警示監控情況如下:

  • 小時任務A:每2小時調度一次,運行一次耗時25min。運行起始時間為每日0點0分,則該任務一天(24小時)共有12個任務周期,0點為第一個周期,則第3個周期為4點。該任務正常運行時,第3個周期任務會在4點25分執行完畢。此時設定觸發條件為周期未完成,且指定該任務第3個周期在4點30未完成的時候發送警示資訊,則如果任務某天運行到4點30還未完成時,將會發送警示。

  • 分鐘任務B:每10分鐘調度一次,運行一次耗時2min。運行起始時間為每日0點0分,則該任務一小時共有6個任務周期,0點0分為第一個周期,則第3個周期為0點20分。該任務正常運行時,第3個周期任務會在0點22分執行完畢。此時設定觸發條件為周期未完成,且指定該任務第3個周期在0點23未完成的時候發送警示資訊,則如果任務某天運行到0點23還未完成時,將會發送警示。

逾時

表示從任務啟動並執行起始時間點開始監控,到指定的運行時間長度後,該任務仍未結束運行,則系統發送警示。通常用於監控任務的運行時間長度。

說明

如果監控的任務執行失敗,到指定的運行時間長度後,該任務仍處於未成功狀態,將觸發逾時警示。

自動重跑後仍出錯

表示從任務啟動並執行起始時間點開始監控,如果任務運行出錯且自動重跑後仍出錯,則系統發送警示,

說明

如果您需要在任務每次運行出錯時就觸發警示,則可以將觸發條件配置為:出錯

任務轉執行個體完成

僅當物件類型為工作空間時,可以選擇該觸發條件。

執行個體數量波動

僅當物件類型為工作空間時,可以選擇該觸發條件。DataWorks每天在24:00前產生次日需要啟動並執行周期執行個體,當工作空間的執行個體數量與歷史均值相比發生一定幅度的波動時,您將收到該警示。

獨享調度資源群組獨享Data Integration資源群組

資源群組利用率

利用率大於某個數值並持續指定時間長度時,觸發該警示。

樣本:利用率大於50%並持續15分鐘時,觸發警示。

資源群組上等待資源的執行個體數

等資源執行個體數大於某個數值並持續指定時間長度時,觸發該警示。

樣本:等資源執行個體數大於10並持續15分鐘,觸發警示。

配置警示行為

警示方式

警示接收人

描述

郵件簡訊、電話

支援警示給任務責任人值班表其他人員

  • 您可以單擊校正連絡方式,校正手機號或郵箱是否填寫正確。

  • 您需要購買DataWorks專業版及以上版本,才可以使用電話警示功能。

  • 如果您選擇警示方式電話,則需要選中為了避免短時間內產生大量警示電話,DataWorks會對警示電話進行過濾,同一個使用者在20分鐘內最多接收到一通警示電話,其餘警示電話將被降級為簡訊,請知悉。

  • 您需要先配置值班表,再在此處選擇警示給值班表,值班表配置詳情請參見:值班表

    說明

    配置完值班表後,在產生警示時,前兩次僅主值班人會收到警示資訊,第三次開始系統將發送警示資訊至主值班和備值班人

DingTalk群機器人WebHook

群內人員

  • 您可單擊操作列的發送測試訊息,測試該警示是否可以正常發送。如未收到警示資訊,請參考智能監控進行排查。

  • DingTalk群機器人安全配置僅支援配置關鍵字,並且關鍵字需要包含DataWorks

配置疲勞度控制

參數

描述

最大警示次數

警示的最大次數,超過設定的次數後,不再產生警示。

最小警示間隔

兩次警示之間的最小時間間隔。

勿打擾時間

設定了勿打擾時間後,則在該時間段內系統將不會發送警示。

例如,當設定了任務狀態為逾時出錯未完成時觸發警示,且該任務設定的勿打擾時間為00:0008:00,則該時間段內將不會發出警示資訊,如果到達8點,任務仍處於上述異常狀態,將會發出警示資訊。

配置完成後單擊確定,即可建置規則。您可以在規則管理頁面單擊相應規則後的詳情開啟/關閉刪除進行相關操作。

  • 詳情:單擊詳情,即可查看規則的基本資料。

  • 開啟關閉:控制規則的狀態,開啟後方可監控任務的執行情況。您可以在警示資訊面板查看警示詳情。

  • 刪除:單擊刪除,即可直接刪除規則。

情境實踐:發送警示訊息至DingTalk群

  1. 開啟需要警示的目標DingTalk群,單擊右上方的群設定表徵圖。

  2. 單擊智能群助手

  3. 智能群助手頁面,單擊添加機器人

  4. 群機器人頁面,單擊新增表徵圖。

  5. 選擇要添加的機器人頁面,單擊自訂

  6. 自訂對話方塊中,單擊添加

  7. 添加機器人對話方塊中,配置各項參數。

    參數

    描述

    機器人名字

    自訂機器人的名稱。

    添加到群組

    添加機器人的群組,不可以修改。

    自訂關鍵詞

    設定後,只有包含關鍵詞的訊息內容才會被正常發送。此處必須添加DataWorks為關鍵詞,注意區分大小寫。

    說明

    最多可以設定10個關鍵詞,訊息中至少包含其中1個關鍵詞才可以發送成功。

  8. 選中我已閱讀並同意《自訂機器人服務及免責條款》,單擊完成

  9. 完成安全設定後,複製機器人的Webhook,單擊完成

    重要

    請妥善保管Webhook地址,一旦泄露會有安全風險。

  10. 進入規則管理頁面,單擊建立自訂規則,選擇警示方式為DingTalk群機器人,複製webhook地址DingTalk群機器人webhook地址輸入框中。