全部產品
Search
文件中心

DataWorks:任務監控

更新時間:Dec 06, 2024

智能監控功能支援您通過配置自訂規則,實現對任務運行狀態及資源使用方式的監控;通過配置智能基準,保障複雜依賴情境下重要資料在預期時間內正常產出。同時,您還可以根據業務需求自訂資源群組營運規則,實現資源群組的自動化營運。

功能介紹

各模組功能介紹如下:

功能

描述

智能基準

智能基準能夠及時捕捉導致基準上任務無法按時完成的異常情況並提前預警,保障複雜依賴情境下重要資料能在預期時間內順利產出。

規則管理

您可以在規則管理介面管理全域規則,同時,還支援您根據業務需求自訂監控規則。

  • 全域規則:系統內建全域警示規則(非空間層級警示規則)對周期任務的狀態進行監控,避免周期任務異常導致周期執行個體無法正常調度執行,詳情請參見:周期任務狀態監控

  • 自訂監控規則:

    • 周期任務周期性調度時將產生周期執行個體,DataWorks支援通過周期任務配置自訂監控規則,實現對周期執行個體運行狀態的監控。詳情請參見:周期執行個體狀態監控

    • 支援您建立自訂規則並指定規則對象Realtime Compute任務,實現對Realtime Compute任務運行狀態的監控,詳情請參見:Realtime Compute任務運行狀態監控

    • 支援您建立自訂規則並制定物件類型獨享Data Integration資源群組獨享調度資源群組,實現對獨享資源群組使用方式的監控,詳情請參見:獨享資源使用監控

警示資訊

您可以在警示資訊介面查看監控警示資訊,包括自訂規則警示資訊、全域規則警示資訊、智能基準警示資訊等。

值班表

您可以在值班表介面自訂值班表資訊,以便配置監控規則警示方式時可以選擇發送警示資訊給值班表對應的值班人。

說明

值班表支援設定主值班人和備值班人,預設警示給主值班人員,但是當警示兩次後,第三次及之後的警示資訊將同時警示給主、備值班人員。

自動營運

您可以根據業務需求,對獨享資源群組建立營運規則並關聯已建立的監控規則,當關聯的監控規則被觸發時,系統將對運行在目標獨享資源群組上且滿足過濾條件的任務自動執行營運動作,以達到自動營運的目的。

說明

目前只支援關聯調度資源的監控規則。

任務運行狀態監控

監控對象

您可以通過配置相應的監控規則(自訂規則、智能基準),對周期調度任務狀態、周期任務自動調度產生的周期執行個體運行狀態、Realtime Compute任務運行狀態以及資源使用方式進行監控。

  • 周期任務狀態監控

    DataWorks每晚根據周期任務產生第二天待自動調度啟動並執行周期執行個體,所以為保障周期任務可以正常產生周期執行個體並且自動調度運行,DataWorks內建了全域警示規則(非空間層級警示規則)來對周期任務的狀態進行監控,如有異常便會自動警示。警示包括孤立節點節點成環

    規則類型

    監控對象

    觸發條件

    警示說明

    全域規則

    孤立節點:指任務展開父節點時,沒有依賴任何父節點。

    孤立節點產生後會自動警示,如果收到孤立節點警示請及時處理。

    說明

    在DataWorks上,除了工作空間根節點外,自訂的每個周期調度的任務都需要有父節點依賴才可以被正常調度運行。所以孤立節點不會自動調度運行,如果該孤立節點下遊依賴較多,則會造成嚴重的後果。

    • DataWorks每天定時9點、12點、16點對周期任務狀態進行掃描,如有工作空間記憶體在孤立節點或節點成環等異常現象,系統將會自動發送警示。但掃描時間點前10分鐘內產生異常不會納入本次掃描,該異常將會被納入下一個周期的任務狀態掃描中進行掃描。

    • 全域規則為系統內建規則,您無須手動建立,預設以簡訊、郵件的方式警示給節點責任人。但您可以在規則管理頁面中針對全域規則修改警示接收人。

    • 支援您在規則管理頁面關閉全域警示規則。

    節點成環:指某任務為上遊任務但又同時依賴了自己的下遊任務,導致依賴關係成環。

    節點成環後會自動警示,如果收到節點成環警示請及時處理。

    說明

    節點成環後在自動調度時不會被調度調起。

  • 周期執行個體運行狀態監控

    在DataWorks上,周期任務在周期性調度時將產生周期執行個體,DataWorks支援通過周期任務配置自訂監控規則,實現對周期執行個體運行狀態的監控,包括指定對象的自訂規則監控警示和重要任務提前預警的基準預警功能。

    規則類型

    監控對象

    觸發條件

    自訂規則

    指定任務節點基準工作空間商務程序上的任務。

    • 當任務運行完成未完成出錯周期未完成逾時自動重跑後仍出錯時,將觸發警示。

    • 當物件類型為工作空間時,除上述觸發條件外,還包括任務轉執行個體完成執行個體數量波動

    智能基準

    基準任務及影響基準上任務資料產出的上遊任務會被納入基準監控範圍。

    說明
    • 您可以通過設定基準優先順序來保障基準上的任務按時執行,資料順利產出。

    • 當有任務需要重保並且上遊任務依賴較為複雜時,可以使用基準功能將重要任務移到該基準上。

    • 基準警示

      當預測到基準上任務無法在承諾時間內完成時,系統將會根據定義的警示方式發送基準警示資訊。詳情請參見核心邏輯介紹:基準警示

    • 事件警示

      基準任務及其上遊任務出錯,或關鍵路徑上的任務變慢時,會產生事件,並發送事件警示資訊,詳情請參見:事件管理

  • Realtime Compute任務運行狀態監控

    • 規則類型:自訂規則。

    • 監控對象:Realtime Compute任務。

    • 觸發條件:當任務出錯時觸發警示。

  • 資源使用方式監控

    • 規則類型:自訂規則。

    • 監控對象:獨享調度資源群組、獨享Data Integration資源群組。

    • 觸發條件:

      • 資源群組使用率大於某個數值並持續指定時間長度時觸發警示。

      • 資源群組上等待資源的執行個體數大於某個數值並持續指定時間長度時觸發警示。

警示方式

配置監控規則後,平台一旦檢測到規則被觸發,將會根據您設定的警示方式,通過郵件、簡訊、電話或DingTalk群訊息等形式通知您,方便您及時發現並處理異常問題。

規則類型

警示方式

疲勞度控制

自訂規則、全域規則、智能基準

  • 警示給指定人員:支援郵件簡訊、電話警示給節點責任人、指定責任人或值班表中的排班等。其中,電話警示方式僅支援中國內地手機號的電話警示。

  • 警示給群組:支援DingTalk群機器人WebHook

    說明
    • 僅DataWorks企業版支援使用WebHook功能。

    • WebHook功能僅支援推送警示資訊至企業微信或飛書。

    • 如果您需要使用其他的WebHook,您需要先單擊申請連結加入“阿里雲巨量資料AI平台”交流群,再掃描下方二維碼加入DataWorks產品DingTalk交流群,進行售前售後諮詢,諮詢可直接@智能機器人,值班時間段內也可直接聯絡值班人員。支援人員二維碼

支援最大警示次數最小警示間隔勿打擾時間控制。

說明
  • 最大警示次數:警示的最大次數,超過設定的次數後,不再產生警示。

  • 最小警示間隔:兩次警示之間的最小時間間隔。警示間隔期間,若任務恢複正常,剩餘警示次數將不再觸發警示。

  • 勿打擾時間:設定了勿打擾時間後,在該時間段內系統將不會發送警示。

    例如,當設定了任務狀態為逾時出錯未完成時觸發警示,且該任務設定的勿打擾時間為00:0008:00,則該時間段內將不會發出警示資訊,如果到達8點,任務仍處於上述異常狀態,將會發出警示資訊。

資源自助營運

DataWorks的自動營運功能可以實現根據已設定好的監控規則和營運規則來自動執行任務的營運操作。

  • 觸發條件:關聯的監控規則被觸發。

    說明
    • 目前支援對資源群組利用率資源群組上等待資源的執行個體數進行的監控。

    • 目前僅支援對獨享調度資源群組進行自助營運。

  • 定位目標執行個體:對滿足執行個體類型執行個體調度周期執行個體優先順序執行個體狀態執行個體所在工作空間過濾條件的執行個體進行自助營運操作。

  • 營運動作:終止運行執行個體。

    說明

    支援單次最大終止2000個執行個體。

任務警示資訊診斷

您可以通過任務DAG圖或運行診斷頁面,查看指定任務產生的警示資訊。

  • 通過任務DAG圖查看

    對於配置了監控警示且在目前時間點24小時內產生了警示的執行個體,您可以在周期執行個體頁面,開啟指定執行個體的DAG圖,單擊執行個體右上方紅色警示標識(圖中地區②),在彈出的監控詳情視窗為您展示將當前任務納入監控的規則或基準列表,以及各個規則或基準的觸發情況,您可以單擊右上方的查看警示資訊跳轉至警示資訊頁面查看警示詳情,或單擊規則/基準名稱跳轉至該規則的配置頁面,查看規則配置詳情。

    說明

    您可以勾選過去24h產生警示的節點(圖中地區①)對周期執行個體進行過濾。

    警示資訊

  • 通過任務運行診斷頁面查看

    對於配置了監控警示的任務,您還可以在該任務運行診斷頁面的提示資訊地區,單擊查看詳情,在彈出的監控詳情視窗為您展示將當前任務納入監控的規則或基準列表,以及各個規則或基準的觸發情況,您可以單擊右上方的查看警示資訊跳轉至警示資訊頁面查看警示詳情,或單擊規則/基準名稱跳轉至該規則的配置頁面,查看規則配置詳情。運行診斷

  • 通過警示資訊頁面查看

    您也可以通過警示資訊頁面查看智能監控模組產生的所有警示資訊,並通過警示詳情查看警示的完整觸發流程,包括觸發該警示的監控規則、警示觸發條件、您收到警示的原因等。詳情請參見:警示資訊