智能監控功能支援您通過配置自訂規則,實現對任務運行狀態及資源使用方式的監控;通過配置智能基準,保障複雜依賴情境下重要資料在預期時間內正常產出。同時,您還可以根據業務需求自訂資源群組營運規則,實現資源群組的自動化營運。
功能介紹
各模組功能介紹如下:
功能 | 描述 |
智能基準能夠及時捕捉導致基準上任務無法按時完成的異常情況並提前預警,保障複雜依賴情境下重要資料能在預期時間內順利產出。 | |
您可以在規則管理介面管理全域規則,同時,還支援您根據業務需求自訂監控規則。
| |
您可以在警示資訊介面查看監控警示資訊,包括自訂規則警示資訊、全域規則警示資訊、智能基準警示資訊等。 | |
您可以在值班表介面自訂值班表資訊,以便配置監控規則警示方式時可以選擇發送警示資訊給值班表對應的值班人。 說明 值班表支援設定主值班人和備值班人,預設警示給主值班人員,但是當警示兩次後,第三次及之後的警示資訊將同時警示給主、備值班人員。 | |
您可以根據業務需求,對獨享資源群組建立營運規則並關聯已建立的監控規則,當關聯的監控規則被觸發時,系統將對運行在目標獨享資源群組上且滿足過濾條件的任務自動執行營運動作,以達到自動營運的目的。 說明 目前只支援關聯調度資源的監控規則。 |
任務運行狀態監控
監控對象
您可以通過配置相應的監控規則(自訂規則、智能基準),對周期調度任務狀態、周期任務自動調度產生的周期執行個體運行狀態、Realtime Compute任務運行狀態以及資源使用方式進行監控。
周期任務狀態監控
DataWorks每晚根據周期任務產生第二天待自動調度啟動並執行周期執行個體,所以為保障周期任務可以正常產生周期執行個體並且自動調度運行,DataWorks內建了全域警示規則(非空間層級警示規則)來對周期任務的狀態進行監控,如有異常便會自動警示。警示包括孤立節點與節點成環。
規則類型
監控對象
觸發條件
警示說明
全域規則
孤立節點:指任務展開父節點時,沒有依賴任何父節點。
孤立節點產生後會自動警示,如果收到孤立節點警示請及時處理。
說明在DataWorks上,除了工作空間根節點外,自訂的每個周期調度的任務都需要有父節點依賴才可以被正常調度運行。所以孤立節點不會自動調度運行,如果該孤立節點下遊依賴較多,則會造成嚴重的後果。
DataWorks每天定時9點、12點、16點對周期任務狀態進行掃描,如有工作空間記憶體在孤立節點或節點成環等異常現象,系統將會自動發送警示。但掃描時間點前10分鐘內產生異常不會納入本次掃描,該異常將會被納入下一個周期的任務狀態掃描中進行掃描。
全域規則為系統內建規則,您無須手動建立,預設以簡訊、郵件的方式警示給節點責任人。但您可以在規則管理頁面中針對全域規則修改警示接收人。
支援您在規則管理頁面關閉全域警示規則。
節點成環:指某任務為上遊任務但又同時依賴了自己的下遊任務,導致依賴關係成環。
節點成環後會自動警示,如果收到節點成環警示請及時處理。
說明節點成環後在自動調度時不會被調度調起。
周期執行個體運行狀態監控
在DataWorks上,周期任務在周期性調度時將產生周期執行個體,DataWorks支援通過周期任務配置自訂監控規則,實現對周期執行個體運行狀態的監控,包括指定對象的自訂規則監控警示和重要任務提前預警的基準預警功能。
規則類型
監控對象
觸發條件
指定任務節點、基準、工作空間、商務程序上的任務。
當任務運行完成、未完成、出錯、周期未完成、逾時、自動重跑後仍出錯時,將觸發警示。
當物件類型為工作空間時,除上述觸發條件外,還包括任務轉執行個體完成、執行個體數量波動。
基準任務及影響基準上任務資料產出的上遊任務會被納入基準監控範圍。
說明您可以通過設定基準優先順序來保障基準上的任務按時執行,資料順利產出。
當有任務需要重保並且上遊任務依賴較為複雜時,可以使用基準功能將重要任務移到該基準上。
基準警示:
當預測到基準上任務無法在承諾時間內完成時,系統將會根據定義的警示方式發送基準警示資訊。詳情請參見核心邏輯介紹:基準警示。
事件警示:
基準任務及其上遊任務出錯,或關鍵路徑上的任務變慢時,會產生事件,並發送事件警示資訊,詳情請參見:事件管理。
Realtime Compute任務運行狀態監控
規則類型:自訂規則。
監控對象:Realtime Compute任務。
觸發條件:當任務出錯時觸發警示。
資源使用方式監控
規則類型:自訂規則。
監控對象:獨享調度資源群組、獨享Data Integration資源群組。
觸發條件:
資源群組使用率大於某個數值並持續指定時間長度時觸發警示。
資源群組上等待資源的執行個體數大於某個數值並持續指定時間長度時觸發警示。
警示方式
配置監控規則後,平台一旦檢測到規則被觸發,將會根據您設定的警示方式,通過郵件、簡訊、電話或DingTalk群訊息等形式通知您,方便您及時發現並處理異常問題。
規則類型 | 警示方式 | 疲勞度控制 |
自訂規則、全域規則、智能基準 |
| 支援最大警示次數、最小警示間隔與勿打擾時間控制。 說明
|
資源自助營運
DataWorks的自動營運功能可以實現根據已設定好的監控規則和營運規則來自動執行任務的營運操作。
觸發條件:關聯的監控規則被觸發。
說明目前支援對資源群組利用率和資源群組上等待資源的執行個體數進行的監控。
目前僅支援對獨享調度資源群組進行自助營運。
定位目標執行個體:對滿足執行個體類型、執行個體調度周期、執行個體優先順序、執行個體狀態、執行個體所在工作空間等過濾條件的執行個體進行自助營運操作。
營運動作:終止運行執行個體。
說明支援單次最大終止2000個執行個體。
任務警示資訊診斷
您可以通過任務DAG圖或運行診斷頁面,查看指定任務產生的警示資訊。
通過任務DAG圖查看
對於配置了監控警示且在目前時間點24小時內產生了警示的執行個體,您可以在周期執行個體頁面,開啟指定執行個體的DAG圖,單擊執行個體右上方紅色警示標識(圖中地區②),在彈出的監控詳情視窗為您展示將當前任務納入監控的規則或基準列表,以及各個規則或基準的觸發情況,您可以單擊右上方的查看警示資訊跳轉至警示資訊頁面查看警示詳情,或單擊規則/基準名稱跳轉至該規則的配置頁面,查看規則配置詳情。
說明您可以勾選過去24h產生警示的節點(圖中地區①)對周期執行個體進行過濾。
通過任務運行診斷頁面查看
對於配置了監控警示的任務,您還可以在該任務運行診斷頁面的提示資訊地區,單擊查看詳情,在彈出的監控詳情視窗為您展示將當前任務納入監控的規則或基準列表,以及各個規則或基準的觸發情況,您可以單擊右上方的查看警示資訊跳轉至警示資訊頁面查看警示詳情,或單擊規則/基準名稱跳轉至該規則的配置頁面,查看規則配置詳情。
通過警示資訊頁面查看
您也可以通過警示資訊頁面查看智能監控模組產生的所有警示資訊,並通過警示詳情查看警示的完整觸發流程,包括觸發該警示的監控規則、警示觸發條件、您收到警示的原因等。詳情請參見:警示資訊。